L’avenir des interactions en réalité virtuelle

Dès les années 1970, la VR naît sous la forme d’un casque composé de deux écrans réagissant aux mouvements de la tête. De simple spectateur, l’utilisateur devient acteur. Rapidement se pose alors la question des interactions. Comment interagir dans une scène de réalité virtuelle ? Avec quels dispositifs ? Ces dispositifs ne vont-ils pas compromettre l’expérience ?

La VR, une réalité alternative à la mode

Depuis quelques années on entend de plus en plus parler de la VR. Mais qu’est-ce que c’est ? La VR, ou réalité virtuelle, constitue l’une des principales “réalités” de l’ensemble que l’on nomme les réalités alternatives. Elle a pour objectif de nous faire percevoir une réalité contextuelle plus ou moins modifiée.

La VR est un dispositif technologique qui immerge la ou les personnes dans un environnement totalement numérique et virtuel, basé sur des projections visuelles et auditives[1]. Les principales applications de la VR portent sur la “mise en situation” (visite virtuelles, formations, jeux). Pour ce faire, la VR utilise des dispositifs technologiques qui s’appuient sur deux de nos sens : la vue, principalement, et l’ouïe. Le toucher est également en passe d’être exploité via des dispositifs à retour haptique[2].

Aujourd’hui, les avancées technologiques de la VR se concentrent sur les dispositifs de rendus visuels (les casques) pour laisser de côté les interfaces (contrôleurs). Chaque semaine de nouvelles annonces nous promettent plus d’immersions visuelles à travers une course aux pixels, aux FPS (Frame Per Second) et autres largeurs de champ de vision. Cette course au meilleur rendu visuel (ou auditif) tend à laisser de côté un autre aspect primordial d’une expérience de réalité virtuelle : les interactions.

La VR, rappel sur une immersion multisensorielle passive ou active

L’immersion en VR fonctionne au travers de plusieurs retours sensoriels (la vue et l’ouïe, voire le toucher) et de la position dans l’espace (ou conscience du corps : en anglais on parle de “Body awarness”). Nous pourrions définir cet ensemble d’éléments par la capacité de notre cerveau à se définir dans un environnement[3].

Tous nos sens ne sont pas actifs lors d’une immersion en VR et n’ont pas non plus le même degré d’importance. La vue et l’ouïe sont les principaux, et vient ensuite le toucher. L’odorat et le goût restent aujourd’hui des sens marginaux (voire inadaptés) pour les expériences de VR.

Pour qu’une immersion en VR soit réussi, il faut donc “duper” nos sens pour obtenir le même type de “conscience du corps” que lors d’une expérience réelle.

Les solutions de VR actuelles permettent de duper plutôt efficacement notre vue et notre ouïe :il s’agit d’une bonne solution pour une expérience de VR “passive”.

Dans toute expérience “active” nous agissons le plus souvent avec nos membres et nos mains. Dans ce cas, le “toucher” devient donc aussi important que la vue et l’ouïe.

L’expérience de VR doit alors proposer une simulation du tactile et duper la “conscience du corps” particulièrement pour nos mains. Ce sont les contrôleurs (solutions matérielles et logicielles) qui ont alors la charge de simuler notre sens du toucher et notre conscience du corps ainsi que de servir de point d’interaction dans le monde virtuel.

Les solutions d’interactions des VR actives aujourd’hui

Aujourd’hui, les constructeurs intègrent les interactions dans une scène de VR en reprenant les paradigmes informatiques à base de contrôleurs, permettant de reproduire le « toucher ». L’utilisateur aura une manette adaptée à l’univers immersif et son interaction sera représentée dans la VR par un équivalent de “pointeur de souris”. L’interaction proposée avec les objets (virtuels) n’est pas très réaliste et s’écarte des comportements de ces objets dans le réel.

Les manettes/contrôleurs

Les manettes qui ressemblent plus ou moins à des joypads (ou manettes de jeux) possèdent de nombreux boutons ainsi que des capteurs de positions (orientation et positionnement dans l’espace). En détectant la position de la manette, son orientation et en partant du principe que la manette est tenue par une main, l’application de VR peut déterminer et simuler la position de la main du “joueur”.

Ces contrôleurs (les manettes) restent perfectibles et présentent des “défauts majeurs” obligeant le joueur à réfléchir à ce qu’il veut faire, rendant ainsi l’expérience complexe et par conséquent beaucoup moins immersive :

Ils imposent la façon dont le joueur doit tenir ses contrôleurs, et ne peuvent pas “capter” un doigt levé ou une main à moitié fermée.
Ils limitent les interactions aux mains : en effet, les contrôleurs sont manipulés avec les mains ; impossible pour eux de représenter dans la scène de VR la position des bras, des jambes, des chevilles ou autre.
Ils nécessitent une phase d’apprentissage plus ou moins longue et complexe (maniement des boutons et autres gâchettes)Le joueur est contraint de toujours “tenir” les contrôleurs dans ses mains, et les garder fermées[4].
Pour reprendre les paradigmes de la main, c’est à dire pointer du doigt, ouvrir la main, etc., il faut s’aider des boutons présents sur les contrôleurs. Cela rend la manipulation plus complexe et moins naturelles.

Ces contrôleurs (manettes) amènent donc une réponse (complexe) pour les interactions dans une scène de VR.

La représentation des contrôleurs dans la scène de VR affiche la plupart du temps une “main” et/ou l’équivalent d’un “pointeur de souris” qui permettra au joueur de sélectionner les éléments dans la scène de VR.

Le pointeur de souris

Le pointeur est un pur artefact qui reprend les mêmes concepts qu’un curseur de souris, mais en 3D : il se moque de la notion de profondeur et permet d’atteindre indifféremment des éléments proches du joueur, comme des éléments éloignés. Dans notre monde réel, ce qui se rapproche le plus de ce pointeur serait un pointeur laser, pas seulement avec le point rouge du pointeur, mais aussi avec le “rayon” du laser. Autant dire qu’il ne s’agit pas des éléments les plus naturels et des plus intuitifs pour l’Homme.

La notion de profondeur est particulièrement intéressante : dans la réalité, lorsque nous désirons atteindre un objet, nous tendons le bras, le doigt, et si nous sommes trop loin … nous nous rapprochons. Dans la réalité virtuelle et avec ces contrôleurs, tout est à portée de main !

Cette technique reste pratique pour les développeurs et permet de pallier les problèmes de déplacement en VR. Cependant, cette représentation de la main est particulièrement contre-pertinente pour l’expérience immersive de la VR. En effet, l’utilisateur se retrouve avec une “simili main” qui tente de ressembler au comportement de la main du joueur, mais ne le reproduisant pas du tout, ce serait comme un pointeur laser au bout du doigt.

Les interactions avec les objets

Dans une scène VR, les objets avec lesquels interagit le joueur réagissent au travers des contrôleurs. En effet, les déclencheurs des interactions se font via le “pointeur laser” et un appui sur l’un des boutons du contrôleur (on retrouve ici notre paradigme “souris”).

Les conséquences de ce type de déclencheurs entrainent la modification de l’expérience utilisateur et font donc ressembler les objets d’interaction à des gros boutons “cliquable” comme sur nos écrans 2D et en mode “mono point”.

Essayez d’imaginer la fonction de “pinch-to-zoom[5]” comme sur nos smartphones dans une scène de VR : nous sommes revenus à l’ère du pointeur de souris et avec elle des interfaces adaptées à ce “mono point”.

Demain, quelles innovations pour des interactions réussies ?

Comme présenté précédemment, les interactions en VR s’appuient sur le triptyque technologique suivant : les contrôleurs, leur représentation et les objets d’interaction.

Face à ce triptyque technologique et parce que nous nous positionnons dans le cadre de la VR, la réponse apportée est incomplète ou potentiellement inappropriée. Trois points d’attention limitent et réduisent l’expérience de Réalité Virtuelle :

Le sujet est coupé du réel

La personne qui vit une expérience de VR est immergée (visuellement et auditivement) dans une scène virtuelle rendant les interactions avec les autres personnes externes à la scène de VR complexes et contre-productives. Elle ne voit plus et/ou n’entend plus ce qui se passe dans le monde réel et perd petit à petit ses repères avec le monde réel pour ne se concentrer que sur les éléments perçus par sa vision et son ouïe.

Le sujet ne se voit pas

Autre effet (en cascade) de cette immersion, la personne a conscience d’elle-même : elle sait si elle est debout, assise, statique, en mouvement, les bras levés, les mains fermées, etc. mais elle n’a pas de retour visuel de cette conscience[6].

Le sujet doit être actif

Comme évoqué plus haut, pour une expérience de VR active, le sujet se doit d’être … actif et donc d’interagir avec des éléments de son environnement virtuel : prendre des objets, actionner des boutons, se déplacer, utiliser un bâton, etc. Or ces objets bien que présents pour nos yeux sont inexistants pour nos mains.

Comment proposer une expérience plus naturelle et donc plus immersive en VR, comment améliorer les interactions ? Pouvons-nous baser les interactions non plus sur la position des mains et des états des boutons, mais sur nos doigts, nos mains, nos bras, nos jambes, notre corps ?

A ce jour il n’y pas de réponse préconçue et les dispositifs de VR ne proposent pas de solution “Builtin”. La réponse est plutôt dans le détournement (ou « hack ») de dispositifs. L’un des hacks les plus connus est l’utilisation d’un dispositif de reconnaissance des mains et doigts : le Leap Motion (de la société Leap Motion). A l’origine prévu comme interface devant un écran d’ordinateur, ce dispositif a pu être fixé sur un casque de VR et ainsi permettre de faire apparaitre les mains et les doigts de la personne dans la scène de VR (sans tenir de contrôleur dans ses mains). Un autre dispositif développé à l’origine pour les jeux vidéo sur Console Xbox est le Kinect (de Microsoft) qui permet de modéliser un ou des personnes. Intégré dans une scène de VR, il permet de détecter la position et les mouvements du corps dans son entier et de ses différentes parties (membres, articulations : bras, jambes, poignet, tête, chevilles, etc.)

Comme de nombreuses équipes dans le monde, nous testons chez onepoint ces dispositifs, séparément et ensemble. Nous pensons qu’en plus d’étudier les technologies, il faut porter nos efforts sur les réflexions ergonomiques et sur l’adaptation des interfaces utilisateurs naturelles issues de l’univers du mobile dans la VR.

Nous avons donc mené différentes expérimentations sur les dispositifs d’interactions et un travail sur l’ergonomie (l’expérience utilisateur dans la scène de VR).

Expérience d’interaction avec les mains

Pour un de nos clients, nous avons développé une expérience VR pour dispositif HTC Vive et Leap Motion. En combinant les interactions implicites du HTC Vive, le positionnement dans l’espace et des capteurs du Leap Motion (eux-mêmes fixés sur le casque de VR), nous avons pu reproduire l’usage de nos mains dans une scène de VR. Néanmoins, nous avons complété cette expérience (pas nouvelle en soit) par une interface utilisateur adaptée à cet environnement. Nous avons disposé des objets d’interactions dotés d’une affordance[7] propres aux manipulations naturelles et ainsi amélioré l’expérience utilisateur dans une scène de VR.

Expérience d’intéraction avec tout le corps

Dans le cadre d’un salon, nous avons développé un jeu basé sur un “Human Tetris” en VR enrichit d’une Kinect[8]. Les murs sont projetés dans la scène de VR et la position du joueur est analysée par la Kinect. A ce jour les dispositifs de VR ne permettent pas de réaliser ce type d’interaction.

Nous nous sommes appuyés sur un Kinect qui est capable de modéliser en temps réel une version 3D et articulée d’une personne. En important cette personne dans la scène de VR, nous calculons si la forme du modèle 3D (à partir de la position du joueur) permet de passer au travers du mur. L’expérience se révèle aussi immersive qu’intuitive.

Ces travaux et expérimentation nous permettent de nous rapprocher un peu plus des expériences immersives en VR. Cependant un grand absent limite nos efforts : le toucher. Dans les scènes de VR, lorsque l’utilisateur manipule directement avec sa main un objet, il n’a pas de sensation au niveau de la main, seulement un retour visuel. Le joueur de “Human Tetris”, lorsqu’il passe au travers du mur ne se base que sur des informations visuelles (aucun contact au niveau du genou ou d’un coude par exemple).

Les innovations technologiques nous font de belles promesses sur ces dispositifs à retour haptiques (qu’il s’agisse de gants ou même de combinaisons).

Nous attendons avec impatience l’arrivée de ces matériels. Ces dispositifs sont aujourd’hui en développement et des prototypes commencent à émerger. Ces futurs dispositifs combinés à des interfaces adaptés devraient nous apporter de belles expériences immersives en réalité virtuelle.

[1] A ne pas confondre avec la réalité augmentée (ou AR en anglais, pour Augmented Reality) qui porte sur l’enrichissement (c’est là qu’on parle “d’augmentation”) d’une situation vécue (par un opérateur, un technicien).

[2] Les retours haptiques peuvent être vu comme les retours « tactiles » d’une interaction. Exemple : lorsque l’on appuie sur une touche d’un clavier physique, la touche s’enfonce, vous recevez cette information au travers de vos doigts. Par opposition sur un smartphone lorsque vous utilisez le clavier virtuel, vous n’avez pas d’information « tactile » sur votre action (les seuls retours informations sont visuels ou auditifs).

[3] Si je regarde ma main devant moi, ma vue me montre cette main, si je ferme les yeux et que je déplace cette main vers la droite, bien que ma vue ne m’indique « rien », j’ai conscience de l’endroit où se trouve ma main.

[4] Les contrôleurs sont munis d’une dragonne pour prévenir les risques de chute et de casse.

[5] Par exemple l’opération qui consiste à zoomer sur une photo en augmentant la distance entre les deux doigts et à dézoomer en rapprochant ses mêmes deux doigts.

[6] Faites vous-même l’expérience : fermez les yeux, avec votre doigt tentez de toucher votre écran : votre cerveau a enregistré l’environnement et avec une petite incertitude, vous parvenez à le toucher. Mais que se passe-t-il si vous devez vous lever, faire trois tours sur vous-même, sortir de la pièce, revenir, attraper votre souris d’ordinateur et cliquer sur le bouton gauche ?

[7] L’affordance est la capacité des objets à définir leur utilisation, leur « appel à l’action » par leur design/représentation. Exemple : la forme de la chaise suggère de s’asseoir dessus.

[8] Des murs se présentent devant le joueur et avancent vers lui. Pour passer à travers le mur, le joueur doit reproduire une forme avec son corps (telle une brique de Tetris)

Consentement à l'utilisation des témoins

Utilisation

Conservation

Partage

Gérer mes témoins

Personnalisation des choix

Témoins techniques

Témoins statistiques