Les systèmes de résumé automatique

Je vous propose un résumé de mon article « Deep Learning Models for Automatic Summarization » paru dans Towards Data Science

Une tâche parmi les plus utiles du traitement automatique du langage

Voilà un quart de siècle que les moteurs de recherche nous permettent d’explorer le web. Le plus souvent, quelques mots clés judicieusement choisis et deux ou trois tentatives suffisent à localiser plusieurs sources pertinentes.

Mettre de l’ordre dans ce qui pourrait n’être qu’un gigantesque dépotoir de données est en réalité une exigence consubstantielle à internet depuis ses débuts. Conçu en 1998, l’algorithme PageRank de Google a joué un rôle majeur dans cette quête d’accessibilité de l’information et le progrès poursuit son cours.

Ainsi, le moteur de Google intègre-t-il depuis peu un moteur sémantique capable de saisir l’intention d’une recherche formulée en langue naturelle et, avec un peu d’optimisme, on peut même imaginer qu’il sera possible sous peu d’avoir une brève conversation avec un tel moteur pour affiner progressivement une requête, un peu comme nous le ferions lors d’un échange avec un libraire.

Il existe cependant une différence de taille entre un moteur de recherche et un libraire. À condition d’être lui-même un lecteur averti, ce dernier pourrait en effet guider votre choix en résumant en quelques phrases saillantes le contenu des ouvrages qui ont retenu votre attention.

Pendant longtemps, ce type d’outil de résumé automatique a semblé totalement hors de portée des techniques de Traitement Automatique du Langage basées sur des ensembles de règles sémantiques et syntaxiques.

Les choses sont toutefois en train de bouger. Une fois de plus, les possibilités des techniques de Deep Learning nous surprennent. Rappelons que ces techniques nous ont déjà gratifié ces dernières années de plus d’un petit « miracle », qu’il s’agisse de leur capacité à identifier des objets dans une image, de leur aptitude à la reconnaissance vocale ou d’infliger une défaite cinglante à un grand maître du jeu de Go.

Imaginez un instant qu’à côté de chaque résultat renvoyé par un moteur de recherche, qu’il s’agisse d’un document, d’un livre ou d’une vidéo, figure une liste déroulante vous permettant de choisir la longueur d’un résumé qui serait généré à la volée.

En une phrase, en dix phrases ou en une page, selon vos besoins. Jugeriez-vous une telle fonction utile ? On peut facilement imaginer qu’une telle fonctionnalité, si elle existait, pourrait devenir omniprésente. Il s’agirait en vérité d’un outil universel qui viendrait considérablement renforcer notre capacité à trouver de l’information pertinente.

Aujourd’hui déjà, des sites de vente en ligne comme eBay étudient de tels systèmes capables de rédiger automatiquement de courts descriptifs de produits.

De tel systèmes pourraient également aider les chercheurs à rester à jour dans des disciplines comme l’IA ou la médecine où le nombre quotidien de publications donne le tournis, même aux plus aguerris.

Pour ce qui est de résumer des documents de plusieurs centaines de pages, comme des romans par exemple, de tels systèmes relèvent pour l’instant encore de la science-fiction.

S’agissant de produire des résumés de la taille d’une dépêche d’agence de presse et pour des informations relevant de domaines spécifiques, comme des compétitions sportives, des bilans économiques d’entreprise ou des événements politiques, l’attente pourrait cependant ne plus être très longue.

Une tâche difficile

La mise au point d’un système de résumé automatique est une tâche cognitive particulièrement difficile à automatiser et ceci pour plusieurs raisons :

  • De fait, pour un document donné, il est impossible de définir un résumé optimal qui pourrait jouer le rôle de référence. En règle générale, beaucoup de résumés seront jugés identiquement acceptables par un humain.
  • Parallèlement, il est difficile de définir précisément ce qu’est un bon résumé et par conséquent de définir un score qui attesterait de sa qualité.
  • Les jeux de données enfin, constitués d’exemples de textes associé à un résumé sont rares et couteux à produire car ils exigent en principe un travail humain.

On distingue traditionnellement deux approches dans l’élaboration d’un système de résumé automatique :

  • L’approche par extraction : on cherche à constituer un résumé en sélectionnant des phrases pertinentes dans le texte original comme le ferait un humain muni d’un surligneur. Cette approche possède l’avantage de produire des résumés dont la correction syntaxique est garantie.
  • L’approche par abstraction : on cherche à construire un résumé en reformulant l’original en exploitant des abstractions et des éléments de culture générale. Beaucoup plus ambitieuse et délicate que la précédente, cette approche fait aujourd’hui l’objet de nombreux projets de recherche.

L’évaluation humaine d’un résumé fait intervenir des jugements subjectifs tels que la cohérence, le style, la fluidité ou la lisibilité du texte.

Élaborer un modèle d’apprentissage automatique exige pourtant de disposer d’un score numérique qui permettra de comparer les résumés produits par différents modèles et donc de choisir le meilleur.

Le score qui a aujourd’hui la faveur des chercheurs s’appelle le score ROUGE. Celui-ci se base sur un simple décompte du nombre de mots, ou de suite de mots consécutifs (on parle de n-gram), communs entre le résumé à évaluer et un résumé de référence rédigé par un humain. Ce score, quoique très grossier puisqu’il ne rend nullement compte de la lisibilité du texte produit, s’est malgré tout avéré utile en pratique pour entraîner des modèles de Deep Learning.

Des travaux de recherche récents, menés notamment chez ReciTAL une startup partner de onepoint, essaient d’aller au-delà du score ROUGE en cherchant par exemple à concrétiser l’idée intuitive qu’un bon résumé doit permettre de répondre aussi bien que ne le fait l’original à une liste de questions.

Plus de données de qualités et de meilleurs modèles

L’un des jeux de données les plus utilisés ces dernières années dans la recherche sur le résumé automatique est connu sous le nom de CNN / Daily Mail data set. Il regroupe 300’000 exemples d’articles de presse, chacun étant apparié avec un résumé de quelques lignes rédigé par un humain.

Un examen détaillé de ce jeu de données a cependant permis de mettre en exergue un certain nombre de limitations à ces premiers jeux de données.

Ainsi a-t-on constaté que l’information utile était souvent concentrée au début du texte original et que beaucoup de résumés se contentaient de reprendre telles quelles des phrases entières de la source. Comme on l’imagine, ce genre de biais empêche un modèle d’apprendre efficacement à faire preuve d’abstraction et de synthèse.

Récemment, de nouveaux jeux de données, plus vastes et de meilleure qualité comme le BigPatent data set qui regroupe 1.3 millions de brevets, ont vu le jour et pallient une majorité des défauts des premiers data set.

Une idée ingénieuse proposée récemment consiste à utiliser les transcriptions textuelles de conférences présentées en vidéo lors de congrès scientifiques. Chaque transcription de présentation est alors utilisée comme une base pour construire le résumé de l’article à laquelle elle se réfère.

Le principal atout de cette démarche est que le volume d’un tel jeu de test croît au cours du temps.

S’agissant des modèles eux-mêmes, une majorité de travaux exploitent l’idée d’apprentissage par transfert.

Très schématiquement, l’idée consiste dans un premier temps à inculquer une forme de « culture générale » linguistique à un modèle en lui demandant par exemple d’apprendre à deviner des mots ou des phrases que l’on a intentionnellement masqués dans un texte.

Dans une seconde phase, une fois le modèle ainsi pré-éduqué, on l’entraîne sur la tâche cible du résumé proprement dite. Et, surprise, cela fonctionne !

Et après ?

L’une des motivations qui guide aujourd’hui la recherche sur les systèmes de résumé automatique est la multitude d’applications potentielles d’une telle technologie, nous l’avons dit.

Il en existe une autre cependant, plus fondamentale peut-être, qui est de poser les questions difficiles de l’intelligence artificielle dans des termes expérimentales en pratique.

  • Que veut dire au juste « comprendre un texte » pour une machine ?
  • Jusqu’où pouvons-nous mener l’approche statistique qui consiste à alimenter un modèle de Machine Learning avec de nombreux exemples ?
  • Que peut-on savoir à propos du monde à partir de tous les textes jamais écrits ?
  • Quelle part du réel n’y figure pas ?
  • Quelle part devrait être apprise, « hors des livres », par interaction sensorielle avec le monde physique et social comme nous le faisons tout au long de notre vie ?

Toutes ces questions, pour fascinantes qu’elles soient, demeurent pour l’instant ouvertes.

Certaines voies aujourd’hui explorées par les chercheurs visent à enrichir la compréhension du monde par les machines en leur faisant exploiter simultanément différents flux d’information comme l’image, le son et la transcription textuelle de films.

Peut-être ces approches dites multimodales permettront-elles petit à petit de construire des machines dotées d’un peu plus de bon sens que celles d’aujourd’hui.

Des résultats prometteurs ont d’ores et déjà été obtenus dans cette voie mais la route qui nous permettra de créer des machines qui comprendront le monde au sens où nous l’entendons est encore longue.

A condition que l’humanité parvienne à surmonter ses propres limitations, les années à venir promettent d’être passionnantes dans cette quête.

Auteur : Pirmin Lemberger

Data Scientist