Une IA de Nvidia génère des visages étonnants de réalisme

Dec 24, 2018
Vote on Hacker News

ia-nvidia-isages-etonnants-realisme

L’Intelligence Artificielle (IA) de Nvidia chargée de générer des images vient de dévoiler une palette de faux visages qu’elle a créés – tous impressionnants de réalisme. Plus intéressant encore : la firme lève le voile sur la façon dont fonctionnent les réseaux neuronaux à l’origine de ces créations.

Depuis 2014, une branche de l’IA s’applique à créer des images ex nihilo, à partir d’informations emmagasinées : les GAN (réseaux antagonistes génératifs), une catégorie particulière de réseau neuronaux. Et si leurs résultats sont souvent impressionnants, leur mode opératoire demeure souvent assez opaque.

Détailler un visage en trois catégories de caractéristiques

Mais Nvidia vient de frapper un grand coup sur ces deux dossiers. Le fondeur vient de présenter une collection de faux visages humains créés par son IA, tous plus impressionnants les uns que les autres. Mais Nvidia a, en plus, révélé comment ses GAN étaient parvenus à une telle prouesse.

Le principal coup de génie des ingénieurs de Nvidia est d’avoir séparé les différents aspects d’une image que l’IA analyse en trois niveaux. Le haut niveau incluse les caractéristiques principales de l’image (dans le cas d’un visage, la pose, les cheveux, les traits), le niveau moyen regroupent les aspects secondaires (expression du visage, yeux) et le bas niveaux les aspects de textures (essentiellement les teintes).

Des variations à l’infini, pour des visages à l’infini…

Et chacun de ces trois niveaux peut ensuite être modifiée ou ajustée indépendamment les uns des autres pour créer un portrait. Ainsi, en ne touchant ni au haut niveau, ni au bas niveau, mais en faisant varier le niveau moyen, une série de visages apparaît. Puis, de même, en ne faisant varier que le haut niveau, ou que le bas niveau.

La force de l’IA de Nvidia réside aussi dans sa capacité à extraire uniquement les informations clés d’une image, plutôt que de la scanner pixels par pixels. Elle qualifie ainsi un visage avec une quantité d’informations bien plus faible, ce qui lui permet d’apprendre beaucoup plus vite.