Le mécanisme d’attention en IA

Lorsque nous regardons une scène ou une image pour comprendre ce qui s’y déroule, nous focalisons instinctivement notre attention sur certains objets, certaines personnes ou certaines actions car notre expérience nous a appris que c’est là que se trouve l’essentiel de l’information. Des systèmes de traduction automatique ou des systèmes de description d’images parviennent aujourd’hui à exploiter un simulacre de ce mécanisme pour améliorer considérablement leurs performances. On l’appelle le mécanisme d’attention (MA). Dans certains cas le MA apporte par ailleurs une aide appréciable à l’interprétabilité de modèles prédictifs jusque-là considérés comme des boites noires opaques. L’objectif de cet article pédagogique est de présenter comment fonctionne le MA dans deux contextes évoqués : traduction automatique et description d’image. Au-delà de ces deux cas particuliers et des gains de performances et d’interprétabilité nous examinerons brièvement l’hypothèse selon laquelle le MA pourrait jouer un rôle central en IA.

1. Les bons conseils de la nature

Aussi loin que l’on remonte dans l’histoire de l’IA on retrouve la même question : est-il judicieux d’imiter la nature ou alors est-il préférable de s’en détacher entièrement pour concevoir des solutions purement artificielles ? L’utilisation, aujourd’hui très populaire, de réseaux de neurones (RN) artificiels semble accréditer la première option à condition de ne pas être trop exigeant sur l’étroitesse de l’analogie.

Le principe d’apprentissage le plus couramment utilisé aujourd’hui en IA, celui du machine learning (ML) supervisé, est en revanche assez éloigné de la manière dont les humains acquièrent des connaissances puisqu’il consiste à entraîner un algorithme au moyen de très nombreux exemples du phénomène qu’il s’agit « d’apprendre », un sujet qui était l’objet de ce précédent article.

Le sujet du présent article, le mécanisme d’attention (MA), peut clairement être assimilé à un mécanisme librement inspiré du fonctionnement de notre propre cortex cérébral. Lorsque nous analysons par exemple une image pour la décrire, notre attention se focalise instinctivement sur quelques zones que nous savons receler une information importante. Nous ne regardons pas chaque partie de l’image de la même acuité.

Ce mécanisme s’apparente donc à un moyen d’économiser des ressources de traitement face à des données complexes à analyser. De manière similaire, lorsqu’un interprète traduit un texte d’une langue source dans une langue cible, il sait par expérience quels mots dans une phrase source sont associés à un certain terme dans la phrase traduite.

Auteur : Pirmin Lemberger

Directeur scientifique