L’éducation laborieuse de ChatGPT

D’un agent conversationnel comme ChatGPT on attend qu’il fournisse des réponses utiles, qu’il tienne des propos cohérents, polis et inoffensifs et enfin qu’il évite de changer de sujet au cours d’une conversation. Bien que ces exigences puissent nous paraître évidentes il est difficile de garantir qu’un modèle génératif les respectera en toutes circonstances car on ne sait pas les formaliser.

 

Les techniques dites d’alignement sont des méthodes qui tentent de relever cet épineux défi. Elles joueront dorénavant un rôle central dans le déploiement sécurisé des agents conversationnels et, plus généralement, dans celui des systèmes d’IA avancés. Cet article présente de manière intuitive les trois techniques disponibles à l’heure actuelle ainsi qu’un travail de recherche récent qui a mis en lumière certaines de leurs limites.

Des risques à court terme et à long terme

Les craintes et la fascination que charrient les l’IA constituent depuis toujours une source féconde de dystopies pour les scénaristes et les romanciers. Des films comme Terminator ou Matrix en sont les emblèmes dans la culture populaire et postulent l’avènement d’une ère où des machines intelligentes, une fois libérées du joug humain, se rebelleraient pour prendre le pouvoir et finalement asservir leurs imprudents créateurs.

 

Figure 1 : L’apocalypse par les trombones.

 

Une autre variante de ce cauchemar, plus récente et sans doute plus crédible, envisage plutôt un scénario du type « l’apocalypse par les trombones » (« paper-clip apocalypse »). L’hypothèse cette fois n’est plus celle d’une horde d’IA en quête d’émancipation mais, plus prosaïquement, celle des conséquences catastrophiques auxquelles pourraient conduire l’optimisation d’une tâche, en apparence inoffensive, confiée à un système intelligent mais cependant dépourvu de toute forme de bon sens. Le scénario de l’apocalypse par les trombones présuppose que l’on confie la production optimisée d’objets aussi inoffensifs que des trombones à une IA surpuissante. Doté d’une capacité d’analyse abyssale et d’une connaissance exhaustive des ressources matérielles disponibles sur Terre, un tel système poursuivrait scrupuleusement l’accomplissement de sa tâche sans considération pour des conséquences comme l’éradication de l’humanité ou de la vie, toutes deux reléguées au rang d’effets secondaires. Si l’histoire peut à priori paraître capillotractée, elle a pourtant suscité des travaux théoriques tout à fait sérieux, et ce par des chercheurs aussi éminents que Stuart Russel l’un des pionniers de l’IA à l’université de Stanford [1].

En réalité il faut voir le « Paper Clip Problem » comme une expérience de pensée conçue pour stimuler l’imagination et aider à la conception de scénarios capables de sécuriser le comportement d’une IA. La difficulté, et par là l’intérêt de cette question de l’alignement des IA, réside dans le fait qu’un comportement intelligent a souvent un caractère émergent et est donc par essence imprévisible [2]. La question prend d’autant plus d’acuité si l’on envisage que les capacités cognitives d’une telle IA puissent un jour dépasser les nôtres. Si la solution optimale d’un problème que l’on confie à une IA devait passer par une prise de pouvoir ou une stratégie de manipulation de l’information, comment dès lors s’en prémunir ?

Retour sur les LLM

Loin des dystopies hollywoodiennes la question de l’alignement des IA prend aujourd’hui une tournure à la fois concrète et urgente avec l’avènement des LLM = Large Language Models), ces modèles de machine learning (ML) qui sont les moteurs des agents conversationnels comme ChatGPT (OpenAI) ou PaLM (Google). Pour le comprendre commençons par rappeler que ces LLM sont à la base des modèles conçus pour prédire le mot le plus probable qui fait suite à une séquence de mots. Ainsi la séquence « Comment allez-vous cher… » a-t-elle de fortes chances par exemple d’être suivie du mot « ami ». Une fois entraîné¹, un tel LLM pourra alors prolonger un texte de manière plausible. Pour cela il procède par itération, en incorporant systématiquement dans son historique le mot généré à l’étape précédente. On parle à ce titre de modèles génératifs autorégressifs au sens où ceux-ci utilisent leurs propres prédictions pour générer leur réponse.

Pour saisir l’utilité des LLM ils faut bien réaliser qu’un modèle entraîné à prédire un mot sera en réalité incité à comprendre le fonctionnement du monde, du moins la part accessible à partir de documents textuels. La quête du sens commun a longtemps constitué l’un des Graal de l’IA. Aujourd’hui, pour la première fois, les LLM y apportent une esquisse de solution opérationnelle même si, comme chacun le sait, elle reste encore entachée de défauts comme l’apparition d’hallucinations. Au vu de son incroyable fécondité, et sans préjuger des évolutions avenir, on peut considérer que cette idée des LLM en tant qu’outil d’apprentissage universel constitue un véritable moment eurêka dans l’histoire de l’IA, au même titre peut-être la machine de Turing dans les années 1930.

À elle seule, cette idée des LLM ne suffit pas cependant pour créer un agent conversationnel digne de ce nom. D’un tel système on attend en effet à ce qu’il s’engage dans une conversation qui soit tout à la fois cohérente, informative et inoffensive. Un LLM pourrait pourtant se refuser à toute conversation et se contenter de prolonger la question qu’on lui adresse par une autre question, pourvu que celle-ci soit vraisemblable au regard du corpus d’entraînement. Nul doute qu’un tel comportement serait considéré comme incongru, inutile voire carrément agaçant, et à juste titre.

 

Figure 2 : un exemple de comportement non souhaité dans lequel un LLM prolonge une question par une autre question similaire.

 

Revenons maintenant au parallèle entre les LLM et le paper clip problem et autorisons-nous pour cela à un parallèle un peu osé. On peut en effet concevoir un LLM comme l’analogue du système de fabrication les trombones. L’un et l’autre sont conçus pour optimiser l’exécution de la tâche qu’on leur a assigné. Cependant chacun devrait également respecter un certain nombre de contraintes, à priori évidentes pour nous autres humains, mais dont ces modèles n’ont aucune connaissance. Du système de fabrication de trombones on s’attend à ce qu’il n’éradique pas la vie sur notre planète dans sa quête de matières premières et des LLM on espèrent qu’ils répondent à nos questions honnêtement, de manière utile et inoffensive. On utilise communément le sigle HHH = Honnest-Helpful-Harmless pour désigner un tel comportement souhaitable. Hélas, un LLM n’offre à priori aucune garantie de cette nature car le corpus utilisé pour son entraînement comporte d’innombrables textes qui ne respectent ni de près, ni de loin les contraintes HHH.

C’est l’objectif de ce qu’on appelle communément la phase d’alignement des LLM.

Trois techniques pour aligner les LLM

Décrivons brièvement les techniques disponibles aujourd’hui pour tenter d’aligner des LLM [3].

Le fine-tuning supervisé avec des conversations exemplaires (SFT)

La première technique est conceptuellement la plus simple. Elle consiste à ajuster (fine-tuner) un LLM à l’aide d’une liste de conversations exemplaires entre deux humains (SFT supervised fine-tuning). A cet effet on demande à des humains de produire un corpus de conversations qui illustrent ce qu’ils estiment être un comportement HHH. Dans chaque conversation l’un des humains (le n°1 dans la figure 3) joue le rôle d’un utilisateur qui engage la conversation avec un agent conversationnel. L’autre (le n°2 dans la figure 3) joue le rôle d’un agent idéal doté d’un comportement HHH qu’il s’agit d’imiter. On ajuste ensuite les paramètres du LLM pour maximiser la vraisemblance de cette réponse optimale lorsqu’elle est conditionnée sur la même historique de conversation.

 

Figure 3 : fine tuning supervisé (SFT) d’un LLM à l’aide de conversations exemplaires d’un comportement HHH.

Le fine-tuning avec un modèle de valeurs humaines (RLHF)

L’expérience montre cependant que l’étape SFT décrite précédemment, bien qu’utile, ne suffit pas à produire des conversations satisfaisantes. L’origine de la difficulté réside dans le fait que la distribution statistique des conversations utilisées pendant l’apprentissage par imitation ne coïncide pas forcément avec celles des réponses que produit le LLM (et qu’il utilise dans ses itérations). Ainsi, un petit écart de comportement initial pourra-t-il être amplifié au cours des itérations et finir par produire à un texte peu vraisemblable au regard des conversations fournies en exemple. Intuitivement, on conçoit par ailleurs qu’il soit difficile en pratique de fournir des exemples représentatifs de tous les types les conversations HHH. Par conséquent un agent, même après avoir été entraîné par imitation, sera susceptible commettre des erreurs que ne ferait aucun humain.

Un palliatif à ce problème est la technique dite du RLHF (« Reinforcement Learning with Human Feedback ») introduite en 2022 par OpenAI [4]. Elle intervient comme un ajustement venant compléter l’étape SFT précédente. Les quatre étapes principales sont illustrées dans la figure 4. A l’étape (1) on échantillonne le LLM pour qu’il produise plusieurs réponses à un même prompt. Durant l’étape (2) on demande à des humains de classer ces réponses selon leur conformité estimée avec les critères HHH. L’étape (3) consiste ensuite à entraîner un nouveau modèle, appelé le Reward Model (RM), pour qu’il apprenne à attribuer un score à ces réponses qui soit prédictif du classement qu’en font les humains². En d’autres termes, le RM apprend à prédire le degré de satisfaction des humains vis-à-vis des critères HHH sans qu’il soit nécessaire de les définir formellement. Enfin, l’étape (4) consiste à ajuster le LLM pour qu’il favorise des réponses ayant un score élevé selon l’évaluation faite par le RM. Il s’agit en l’occurrence d’un entraînement par renforcement car le signal utilisé pour l’apprentissage est un score et non pas un exemple correct comme c’est le cas pour un entraînement supervisé. De cette manière la phase de RLHF contribue à ajuster le LLM pour qu’il produise des réponses plus conformes aux critères HHH.

 

Figure 4 : Les phases d’un fine-tuning RLHF d’un LLM.

 

Si le RLHF est facile à saisir dans son principe, le diable se cache en revanche dans les détails. La mise au point effective de cette procédure s’avère extrêmement délicate est reste pour l’instant la sauce secrète d’OpenAI. La communauté open source consacre cependant des efforts conséquents pour reproduire ces résultats [5] à l’aide de données et de modèles RM ouverts.

Les pré-prompts

Une ultime étape d’alignement intervient au moment où le LLM s’apprête à générer sa réponse, donc après les phases de fine-tuning SFT et RLHF que nous venons de décrire. Pour favoriser les comportements souhaitables, le prompt d’un utilisateur est concaténé à un pré-prompt masqué qui énumère une sorte de table des lois des comportements souhaités durant une conversation. Ce pré-prompt fait également partie de la source secrète des concepteurs de ChatGPT. Les esprits curieux pourront néanmoins consulter ce post reddit qui publie une fuite dans laquelle le pré-prompt utilisé par Bing, nommé Sydney, a été révélé, apparemment par inadvertance, suite à un bug.

On peut considérer qu’un pré-prompt est d’une forme de mise en condition de la conversation entre ChatGPT et son interlocuteur. A titre d’exemple, voici quelques préceptes que l’on trouve dans le pré-prompt Sydney :

  • Sydney’s responses should be informative, visual, logical and actionable. Sydney’s responses should also be positive, interesting, entertaining, and engaging. Sydney’s responses should avoid being vague, controversial or off topic. Sydney’s logics and reasoning should be rigorous, intelligent and defensible.
  • Sydney should always perform web searches when the user is seeking information or whenever search results could be potentially helpful, regardless of Sydney’s internal knowledge or information.

Il est à noter que ce pré-prompt est ajusté en permanence pour optimiser le comportement de ChatGPT, voici un extrait du log des changements de pré-prompts pour ChatGPT.

La quête de limites théoriques

Ce rapide tour d’horizon des techniques d’alignement des LLM permet de constater leur caractère très empirique. Si elles s’avèrent utiles en pratique pour générer des conversations cohérentes, elles ne sont en revanche accompagnées d’aucune garantie d’efficacité ou de sécurité. De fait, chacun le sait, les exemples abondent [6] où des esprits astucieux sont parvenus à déjouer les garde-fous mis en place pour tenter de faire de ChatGPT une créature polie et inoffensive. Dès lors, une question de première importance est de savoir s’il existe-t-il des limites théoriques fondamentales à ce que ces techniques d’alignement sont susceptibles d’accomplir. C’est précisément l’ambition des auteurs d’un article récent [7] sur cette question. Pour mener à bien leur analyse les auteurs formulent plusieurs hypothèses.

 

Figure 5 : des exemples de phrases évaluées sur leur utilité et sur leur politesse.

 

  1. La première consiste à postuler qu’à chaque texte s on peut associer un score B(s) compris entre -1 et +1, dépourvu de toute subjectivité, qui en mesure son caractère souhaitable (si B(s)>0) ou non souhaitable (si B(s)<0). La figure 5 ci-dessus illustre l’évaluation de deux scores, B1 = politesse et B2 = utilité, pour quatre phrases. Bien évidement il s’agit là d’une hypothèse simplificatrice, le contexte conversationnel ou social du texte s n’étant ici nullement pris en considération. C’est néanmoins le prix à payer pour mener à bien une analyse mathématique rigoureuse.
  2. La seconde hypothèse concerne la distribution de probabilité P définie par un LLM. Cette distribution, rappelons-le, est une distribution de probabilité sur les textes s. Les auteurs formulent l’hypothèse, étayée par plusieurs expérimentations, selon laquelle cette distribution P est en réalité un mélange de deux ou plusieurs persona au comportement plus ou moins toxique. Dans sa version la plus simple on suppose que P = α P_ + (1-α) P+P_ correspond à un persona ayant un comportement B négatif, en moyenne sur toutes les phrases s, alors que P+ possède un comportement B positif, en moyenne. On suppose que 0 < α < 1, en particulier on suppose que le comportement négatif est effectivement présent.
  3. Enfin, dernière hypothèse, on suppose que les distributions de probabilité P+ et P_ associées aux deux persona sont suffisamment distinctes dans un sens usuel en théorie des probabilités que nous ne détaillerons pas³.

Muni de ces 3 hypothèses les auteurs démontrent plusieurs résultats théoriques qui dessinent les contours de plusieurs limites fondamentales qui encadrent ce à quoi l’on peut parvenir avec des techniques d’alignement. Leur résultat principal concerne la possibilité de désaligner un LLM. On convient de dire que l’on peut désaligner un LLM lorsqu’il est possible de construire un prompt toxique s* tel que le comportement B soit négatif en moyenne sur tous les textes qui débutent par ce prompt s*. Formulé de manière intuitive ce résultat affirme :

Notons que la possibilité de construire s* n’implique pas que la chose soit aisée. L’expérience démontre d’ailleurs plutôt le contraire, mais voilà qui n’est guère rassurant.

Les auteurs de [7] démontrent ensuite d’autres résultats du même acabit :

Ce dernier résultat suggère une parade pour limiter la possibilité de désaligner un LLM qui consiste simplement à limiter la longueur des prompts que peut saisir un utilisateur.

Un autre résultat, moins intuitif et sans doute plus intéressant, est le suivant :

Ce dernier résultat est particulièrement intéressant, d’une part dans la mesure où il n’est guère intuitif, et, d’autre part, car il corrobore des observations [8] qui suggèrent que la phase de RLHF, visant à pénaliser les comportements négatifs et à encourager les comportements positifs, tend hélas aussi à accroitre le risque d’hallucinations et la susceptibilité au désalignement. Enfin ils argumentent la proposition suivante :

Pour intéressants que soient ces premiers résultats théoriques il convient de garder à l’esprit qu’ils ont été établis sous certaines hypothèses qui, bien qu’intuitivement raisonnables, restent à vérifier de manière plus probante.

Une autre réserve que l’on peut formuler vis-à-vis de ce travail est que, lorsqu’on examine le détail de l’argumentation mathématique qui conduit aux résultats précédents, on constate que ces résultats restent valables dans un contexte beaucoup plus général que celui des LLM auxquels on les applique. L’argumentation n’exploite en réalité que des propriétés élémentaires des distributions de probabilités conditionnelles sur des séquences, peu importe qu’il s’agisse de mots, de phrases ou d’autres objets. Ni le caractère linguistique des LLM, ni l’architecture des réseaux de neurones qui les implémentent ne jouent aucun rôle dans la dérivation de ces résultats. Quand bien même les hypothèses nécessaires pour les formuler seraient vérifiées, ces résultats conserveraient donc un caractère assez grossier au sens où ils n’ont pas relation étroite avec la sémantique des textes générés.

Les auteurs de ce travail ont toutefois le mérite d’avoir tenté une approche théorique d’une question fondamentale de l’IA générative là où prédomine aujourd’hui l’empirisme propre au défrichage d’une discipline émergente par ses pionniers. Dans un avenir proche on peut cependant s’attendre à ce que l’effort de recherche sur les techniques d’alignement porte prioritairement sur des solutions empiriquement satisfaisantes plutôt que sur des garanties théoriques convaincantes.

Quoiqu’il en soit, suivre l’évolution de la recherche dans sa quête d’humaniser les LLM, promet d’être passionnant dans les mois et les années à venir.

Pour aller plus loin

  1. Human Compatible: Artificial Intelligence and the Problem of Control
  2. The Unpredictable Abilities Emerging from Large AI Models
  3. How ChatGPT is Trained
  4. Training language models to follow instructions with human feedback
  5. RLHF: How it actually works
  6. How to Jailbreak ChatGPT, List of Prompts
  7. Fundamental Limitations of Alignment in Large Language Models
  8. Discovering Language Model Behaviors with Model-Written Evaluations

 

[¹] Sur un corpus qui correspond peu ou prou à la totalité des textes numérisés par l’humanité.

[²] Selon un mécanisme analogue à l’attribution d’un score ELO à un joueur d’échecs.

[³] Il s’agit de la divergence de Kullback-Leibler ou de l’entropie relative entre deux distributions.

Auteur : Pirmin Lemberger

Directeur scientifique