« Vidéosurveillance et intelligence | Main | Roadrunner, l'ordinateur d'IBM qui franchit le mur du pétaflops »

La vision, voie royale de l'interaction

Hal_2001.jpgNon, l’interface tactile, fort bien exploitée par le iPhone d’Apple, n’est pas l’alpha et l’oméga de l’interaction. Les chercheurs en IHM (interaction homme-machine) ont d’autres fers au feu, parmi lesquels la vision artificielle (vision par ordinateur, Computer Vision en anglais), qui a plus d’une corde à son arc : détection et suivi de repères, d’outils, du doigt, de la main, interprétation de gestes, reconnaissance de visage, voire d’expressions faciales, suivi du regard, et j’en passe. Et ça bouge, dans la vision, en ce moment.

CamSpace-120.jpgCommençons par cette vidéo qui circule depuis peu, dans laquelle la jeune société CamSpace démontre son savoir faire. En deux mots, elle applique au jeu vidéo l’excellent logiciel de vision de son actionnaire Cam-Trax. Celui-ci rend inutile la célèbre zapette à tout faire de la console de jeux Wii (Nintendo), car il est capable de pister en 3D, via une webcam ordinaire, jusqu’à quatre objets qui jouent illico le rôle d’un accessoire de jeu : un stylo sert de manche à balai, un livre devient raquette de ping-pong. Cam-Trax, c’est essentiellement Yaron Tanne, qui aurait développé pratiquement seul le logiciel dans son appartement de Tel Aviv, selon TechCrunh.

Gestix.jpgToujours en Israël, en plein désert du Néguev, une équipe de chercheurs de l’Université Ben Gourion, dirigée par Juan Wachs, a développé un logiciel qui permet à des chirurgiens de manipuler des  images sur un écran géant, en salle d’opération. Comme son nom l’indique, Gestix détecte la main et interprète des gestes, qui permettent de passer d’une image à l’autre, de zoomer… Tout cela sans contact, et c’est heureux, car un chirurgien en action porte des gants chirurgicaux stériles, possiblement maculés de sang.

face_expr_recog-120.jpgRepérer un visage, c’est encore plus difficile, mais l’équipe PCR (Perception for Computers and Robots) dirigée par Luis Baumela à l’Université polytechnique de Madrid sait y faire. Mieux, elle est l’une des rares à interpréter les expressions faciales. Surprise, peur, joie, tristesse, dégoût, colère : ces six dimensions de nos états d’âme sont évalués en temps réel, à 30 images par seconde. La vidéo est impressionnante.

Image_metics-240.jpgPour illustrer ce dont est capable aujourd’hui la vision par ordinateur, il y a enfin le dernier cri en matière de « capture de mouvements » (motion capture). Vous savez, cette technique qui permet de faire jouer par un acteur le rôle d’un héros de jeu vidéo ou de film en images de synthèse. Au final, c’est une créature numérique que l’on voit s’agiter à l’écran, mais si la gestuelle semble naturelle, c’est parce qu’elle a été « capturée » en filmant un acteur. Lequel, habituellement, est bardé de taches blanches, qui servent de repères aux algorithmes.
C’était hier, parce qu’aujourd’hui on sait le faire sans les taches. La société Image Metrics (Manchester, GB, et Santa Monica, Californie), comme nous le disions ici, est la première à proposer le motion capture sans tache : jouez devant la caméra, notre logiciel remplacera l’acteur par n’importe quelle créature. Car il voit, repère dans l’espace chaque mouvement de son corps, de son visage, de ses lèvres, de ses paupières…

Dans peu de temps, la majorité de nos PC seront dotés d’un œil. Dès lors, les logiciels qui voient et interprètent pourront s’en donner à cœur joie. Parions que l’avenir de l’interaction passe aussi par la vision. rue89_small.gif

Posted on mer. 18 juin 2008 by Registered CommenterPierre Vandeginste in | Comments2 Comments

PrintView Printer Friendly Version

EmailEmail Article to Friend

Reader Comments (2)

Et ben, et les Français alors ? On n'arrête pas de nous rabâcher les oreilles que les labos français manquent de visibilité. On dirait que c'est vrai... Juste un exemple, de tête, Frédéric Berthommier, du Gipsa-lab à Grenoble, a développé il y a quelques années des algorithmes permettant de faire le lien entre le mouvement des lèvres d'un locuteur et le son qu'il produit, dans les deux sens. Il y a des démos ici. Peut-être une façon d'améliorer substantiellement les performances de reconnaissance vocale des ordinateurs... juste pour rappeler que l'audition est l'autre cheval de bataille des interfaces homme-machine. Mais cette bataille là, on n'est pas encore sur le point de la gagner. À moins que...

lun. 23/06/08 23:02 | Unregistered CommenterSnailsTalking

D'accord avec vous sur ce point : les labos français font souvent des choses formidables que les médias du même métal ignorent superbement.
La faute un peu aux labos, qui savent moins bien faire connaître leurs travaux que leurs concurrents états-uniens notamment.
Mais la faute également aux médias, qui préfèrent souvent citer le MIT ou Stanford, ne serait-ce que pour se rassurer.
Une question qui revient régulièrement dans les rédactions est celle de la "légitimité". Quand on présente à son chef de service un truc issu d'un laboratoire grenoblois, il faut lui expliquer qu'il y a là-bas des vrais chercheurs sérieux, qui publient dans de vraies revues internationales, je caricature à peine. Si l'on prononce un mot magique comme "MIT" ou Stanford, pas de blabla à faire. En plus, on n'a pas eu besoin de se fatiguer pour trouver l'info, elle est partout, et c'est souvent un argument : c'est paru dans le Wall Street Journal, donc… 

lun. 23/06/08 23:27 | Registered CommenterPierre Vandeginste

PostPost a New Comment

Enter your information below to add a new comment.
Author Email (optional):
Author URL (optional):
Post:
 
Some HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>