Entre imitation et exploration, le dilemme complexe du post-training des LLMs
Jean Vassoyan, Nathanaël Beau et Roman Plaud, trois doctorants du laboratoire TALia de Onepoint, présentent leurs travaux sur l’entrainement des modèles de langues à la conférence NAACL 2025 (North American Chapter of the Association for Computational Linguistics).
Avec le succès exceptionnel des modèles de langues sur la plupart des tâches de questions/réponses, l’un des challenges actuels de la recherche en NLP est la conception « d’agents », c’est-à-dire des IAs capables d’accomplir des tâches nécessitant une décomposition en plusieurs étapes intermédiaires. C’est le cas des problèmes jugés trop complexes pour pouvoir être résolus en « one-shot » par un LLM : calculs longs et complexes, problèmes de raisonnement avancés, interactions avec des environnements etc. Pour y parvenir, le paradigme d’entrainement utilisé est généralement celui de l’apprentissage par renforcement : après son pré-entrainement, le modèle apprend à exécuter des tâches, non pas par imitation d’exemples bien choisis (comme c’est le cas pour la phase de pré-entrainement supervisé), mais par exploration de stratégies choisies aléatoirement et affinées par essai-erreur.
Cette phase de post-training comporte le risque de voir le modèle « diverger », c’est-à-dire explorer tellement loin qu’il en oublie ses capacités initiales (comme la grammaire) acquises en phase de pré-entrainement. Pour cette raison, un terme de pénalité – appelé pénalité de Kullback-Leibler – est généralement ajouté à la fonction objectif, afin de réduire la divergence avec la version pré-entrainée du modèle.
Dans cet article, les auteurs étudient le rôle ambivalent de cette pénalité de Kullback-Leibler dans le guidage de l’exploration. En menant des expériences sur une tâche de raisonnement simple, ils mettent en évidence l’émergence de tokens « critiques », ayant un impact considérable sur les réponses finales du modèle. En conséquence, ils proposent une légère modification de la pénalité de Kullback-Leibler qui favorise davantage d’exploration sur ces tokens critiques, boostant ainsi l’efficacité du post-training.
Ces travaux s’inscrivent dans une tendance globale de la recherche en NLP, qui vise à améliorer l’entrainement des agents sur des tâches spécialisées.