08 mars 2022

2min

Première publication scientifique en traitement automatique du langage naturel

Onepoint œuvre pour préserver et encourager l’excellence universitaire, dans le domaine du traitement automatique du langage tout particulièrement, de par son partenariat avec l’université de Paris ou par la création du laboratoire TALia avec l’école Telecom Paris.

Nathanaël Beau s’intéresse au traitement automatique du langage naturel depuis son arrivée chez onepoint comme R&D data scientist en Janvier 2020. Il démarre alors une thèse avec onepoint en collaboration avec l’université de Paris quelques mois plus tard sur le sujet de la génération de code informatique à partir d’une description en langage naturel. Son sujet peut être compris comme un problème de traduction automatique d’une langue naturelle (parlée par un humain) vers un langage de programmation (intelligible par un ordinateur).

Comment l’IA permet la traduction automatique d’une langue naturelle vers un langage de programmation

Après un an de thèse, la première publication de Nathanaël, consacrée à la traduction automatique de l’Anglais vers le langage de programmation Python, a été accepté par ses pairs de la prestigieuse conférence « Association for Computational Linguistics ».

Nathanaël Beau aura la chance de pouvoir représenter onepoint et l’Université de Paris lors de la conférence à Dublin du 22 au 27 Mai pour présenter son travail.

Dans cet article, Nathanaël s’intéresse aux différents facteurs permettant de générer du code Python conforme à une requête en Anglais. Pour étudier ces facteurs, Nathanaël utilise une architecture à l’état de l’art basée sur le Transformer qui a révolutionné le monde de la recherche en traitement automatique des langues en 2017.

Voici l’abstract de son article :

« En considérant l’architecture seq2seq de Yin et Neubig (2018) pour la traduction du langage naturel vers le code Python, nous identifions quatre composants clés pour la prédiction de code : les contraintes grammaticales, le prétraitement lexical, les plongements lexicaux et le mécanisme de copie de variable. Pour étudier l’importance de chacun de ces composants, nous utilisons une architecture de l’état de l’art qui repose sur un encodeur BERT et un décodeur contraint par la grammaire de Python. L’article souligne l’importance de la composante de substitution lexicale dans les systèmes de conversion du langage naturel en code. »

Découvrir la plublication

Nathanael Beau

Data Scientist -Doctorant CIFRE en NLP