Deep Transfer Learning

22 novembre 2018

2min

Deep Transfer Learning

L’année 2018 a été particulièrement faste en ce qui concerne les progrès en traitement du langage naturel. Pour la première fois certains modèles dépassent même les performances humaines sur des problèmes réputés difficiles comme la capacité à répondre à des questions suite à la lecture d’un texte. Ces progrès reposent d’une part sur de nouvelles architectures de réseaux de neurones et d’autre part sur deux grandes classes d’idées : l’idée de modèle de langage et l’idée de transfert d’apprentissage bien connue en vision artificielle. L’objectif de cet article est de présenter trois de ces méthodes : ULMFiT, ELMo et BERT. Pour notre présentation nous nous appuierons essentiellement sur des schémas d’architectures simplifiés.

LE VIEUX RÊVE DE PARLER AUX MACHINES

Et si le destin de la technologie était de se faire oublier ? De constituer un ensemble d’outils si puissants qu’ils sauraient se faire humbles pour se mettre entièrement au service des hommes sans exiger d’eux ni adaptation, ni laborieux apprentissage ? On peut le souhaiter et, depuis une quarantaine d’années, c’est apparemment le sens de l’histoire avec la démocratisation de l’informatique via des interfaces homme-machine (IHM) graphiques intuitives.

Avec les chatbots [CHL] sont apparus ces dernières années de nouvelles IHM vocales et textuelles qui ambitionnent de permettre des interactions en langue naturelle. Pour l’instant très rudimentaires et réduites à quelques interactions transactionnelles sur le mode question-réponse, elles préfigurent peut-être une révolution à plus long terme qui concrétiserait la démocratisation ultime de l’informatique, celle à laquelle ont rêvé les pionniers de la discipline il y 80 ans[1]. Des machines que l’on pourrait interroger sur le mode de la conversation pour obtenir une information ou déclencher une action.

Dans cette longue marche vers la conception de machines capables de conversation, l’année 2018 a été particulièrement faste avec des progrès incrémentaux mais très significatifs dans le domaine du NLP (Natural Language Processing). Le Deep Learning (DL) n’étant pas avare de petits miracles c’est à lui, on s’en doute, que l’on doit ces derniers progrès. L’objectif de cet article est de présenter les idées et les grandes lignes des architectures de réseaux de neurones (NN ci-après pour Neural Network) qui ont permis ces avancées.

Pirmin Lemberger

Chercheur, Directeur Data Scientist