Six émissions télévisées, dont Newsnight, BBC Breakfast et Question Time qui étaient diffusées entre 2010 et 2015, ont servi de base pour l`apprentissage de l`intelligence artificielle à qui Google a proposé une vidéo de 5 000 heures (environ 118 000 phrases). L`efficacité des algorithmes a été vérifiée sur les nouvelles émissions diffusées entre mars et septembre 2016.
Sur 200 fragments choisis par hasard, un être humain, professionnel qui lit sur les lèvres, n`a reconnu que 12,4 % des mots prononcés alors que les algorithmes en ont reconnu 46,8 %. Il est à noter que les résultats obtenus auraient pu être encore meilleurs, mais dans certains cas le son et l`image étaient décalés d`une seconde, ce qui a empêché l`intelligence artificielle de construire des liens associatifs.
Auparavant, les chercheurs de l`Université d`Oxford avaient également présenté leur propre programme analogique LipNet qui s`était montré plus efficace (93,4 % pour le logiciel contre 52,3 % pour l`être humain). Pourtant, il est facile de l`expliquer : le matériel s`est avéré être beaucoup plus facile que celui utilisé par l`entreprise DeepMind.
Selon les chercheurs, il est peu probable qu`il soit possible d`utiliser le système de Google à des fins d`écoutes téléphoniques, puisque les micros en fonctionnement direct donnent de meilleurs résultats. Ils expliquent aussi qu`on a besoin de certaines conditions pour faire marcher leur programme puisque, par exemple, la définition des caméras de surveillance est insuffisante pour définir les mots prononcées précisément si l`image est sombre et de mauvaise qualité ou si les gens sur l`image sont loin. Les chercheurs, pourraient-ils dans le futur, réparer ce « défaut » de leur programme ? Si cela est possible, cette technologie pourrait être utilisée à des fins de contrôle de la population… Une effrayante perspective…
Tags: