L’intelligence artificielle qui lit sur les lèvres dépasse les professionnels

  30 Novembre 2016    Lu: 806
L’intelligence artificielle qui lit sur les lèvres dépasse les professionnels
Les algorithmes de l’intelligence artificielle développés par l’équipe de Google DeepMind, en coopération avec les scientifiques de l’Université d’Oxford, ont réussi à dépasser l’être humain dans le domaine de la lecture sur les lèvres.
Le programme qu`ils ont développé a montré des résultats 35 % supérieurs à ceux des professionnels qui lisent sur les lèvres, lit-on dans le texte de la recherche.

Six émissions télévisées, dont Newsnight, BBC Breakfast et Question Time qui étaient diffusées entre 2010 et 2015, ont servi de base pour l`apprentissage de l`intelligence artificielle à qui Google a proposé une vidéo de 5 000 heures (environ 118 000 phrases). L`efficacité des algorithmes a été vérifiée sur les nouvelles émissions diffusées entre mars et septembre 2016.

Sur 200 fragments choisis par hasard, un être humain, professionnel qui lit sur les lèvres, n`a reconnu que 12,4 % des mots prononcés alors que les algorithmes en ont reconnu 46,8 %. Il est à noter que les résultats obtenus auraient pu être encore meilleurs, mais dans certains cas le son et l`image étaient décalés d`une seconde, ce qui a empêché l`intelligence artificielle de construire des liens associatifs.

Auparavant, les chercheurs de l`Université d`Oxford avaient également présenté leur propre programme analogique LipNet qui s`était montré plus efficace (93,4 % pour le logiciel contre 52,3 % pour l`être humain). Pourtant, il est facile de l`expliquer : le matériel s`est avéré être beaucoup plus facile que celui utilisé par l`entreprise DeepMind.

Selon les chercheurs, il est peu probable qu`il soit possible d`utiliser le système de Google à des fins d`écoutes téléphoniques, puisque les micros en fonctionnement direct donnent de meilleurs résultats. Ils expliquent aussi qu`on a besoin de certaines conditions pour faire marcher leur programme puisque, par exemple, la définition des caméras de surveillance est insuffisante pour définir les mots prononcées précisément si l`image est sombre et de mauvaise qualité ou si les gens sur l`image sont loin. Les chercheurs, pourraient-ils dans le futur, réparer ce « défaut » de leur programme ? Si cela est possible, cette technologie pourrait être utilisée à des fins de contrôle de la population… Une effrayante perspective…

Tags:


Fil d'info