Facebook : "l'heure est à la reconnaissance des vidéos"

Facebook : « l’heure est à la reconnaissance des vidéos »

La reconnaissance d’objets et de visages dans les photos est désormais banalisée, place à la reconnaissance dans les vidéos, afin de les classer selon leur contenu et de les proposer aux utilisateurs de Facebook. C’est ce qu’annonce Yann Lecun, directeur du laboratoire en intelligence artificielle (IA) de Facebook à Paris. Il a pris la parole le 2 juillet à l’occasion de l’événement USI organisé par Octo Technology.

Apparier avec les intérêts des utilisateurs

Un nouveau type d’application de reconnaissance d’image concerne la classification des vidéos, confirme le scientifique. Il s’agit de pouvoir identifier des types de vidéos, des objets dans les vidéos etc. « En fait cela permet de trier ces vidéos, de les indexer, de permettre la recherche et de les apparier avec les intérêts des utilisateurs, » dit-il.

Scientifiquement, la vidéo est vue comme un volume tridimensionnel dans lequel chaque image est tridimensionnelle et les images sont empilées. La solution mathématique d’analyse employée est ce que l’on appelle un « réseau convolutif ». Il fédère des convolutions non seulement spatiales mais également temporelles afin d’identifier l’activité qui se déroule dans la vidéo.

Les objets nous regardent

Cette capacité de reconnaissance ira encore plus loin, estime Yann Lecun, en dotant de la vue les smartphones, les robots aspirateurs, les caméras, les voitures, etc. « D’ici quelques années Intel ou Samsung vont produire des processeurs spécialisés pour ces méthodes. »

La reconnaissance de vidéos vient après la reconnaissance d’images et de visages déjà largement employée chez Facebook, partout dans le monde, sauf en Europe. « Sur Facebook, lorsque l’on télécharge une photo ou une image, nos amis sont immédiatement étiquetés par ce système, si l’on choisit de bien vouloir être étiqueté, et cela semble très utile, » indique le responsable. Et de souligner que cette fonction est activée partout, » sauf en Europe parce que le public n’est pas prêt, et que les gouvernements n’aiment pas trop ça. »

Performance humaine

Là aussi, c’est un réseau convolutif qui est employé. « La performance est pratiquement égale à la performance humaine, en tout cas pour des vues frontales, » pointe Yann Lecun.

Les réseaux convolutifs sont très largement déployés. Les utilisateurs de Facebook téléchargent 600 millions d’images par jour, si l’on y ajoute Whatsapp et Instagram, on monte à deux milliards de photos par jour. « Chacune des six cents millions de photos est envoyée en moins de deux secondes à deux réseaux convolutifs, » décrit-il. L’un des réseaux convolutifs fait l’identification des objets dans les images et l’autre fait la reconnaissance des visages.

La technique a été utilisée pour d’autres occasions comme l’estimation de la position de la pose d’un corps humain, ce qui permet d’observer l’activité que la personne est en train de faire. A terme, cela peut permettre de reconstruire un modèle 3D et d’imaginer des applications telle que la élé-présence, la réalité virtuelle, et la réalité augmentée.

Photo : Yann Lecun, directeur du laboratoire en intelligence artificielle (IA) de Facebook à Paris, le 2 juillet

Un progrès rendu possible par les processeurs graphiques

La reconnaissance d’images se concrétise grâce à une puissance de calcul suffisante. En 2012 il s’est passé une mini-révolution due à l’apparition des GPU, déclare Yann Lecun, directeur du laboratoire en intelligence artificielle (IA) de Facebook à Paris. Ce sont des cartes graphiques spécialement conçues pour les jeux et qui sont capables de puissances de calcul énormes. « C’est dix milliards d’opérations par seconde pour les cartes modernes, et cela permet de faire fonctionner les réseaux convolutifs de manière assez rapide, » déclare-t-il.

S’y ajoute une base de données stockant un million d’exemples afin d’entraîner ces systèmes. « Cela a permis ça a permis d’entraîner des réseaux convolutifs de taille énorme, » explique le scientifique.

Ces réseaux convolutifs, spontanément, après l’apprentissage, apprennent la détection des caractéristiques de contours, puis des concepts plus sophistiqués. Au final, « on arrive à un taux d’erreurs de 5%, qui est le taux d’erreur que ferait un humain bien entraîné qui par exemple, connaît les différences entre des races de chiens. Avec ces systèmes, on peut localiser, détecter des objets, même s’il y a plusieurs objets, » conclut-il.