Comment expliquer un classifieur de textes à l’aide de contrefactuels ?
Comment modifier la valeur d’un concept dans un texte ? Pirmin Lemberger et Antoine Saillenfest du laboratoire TALia chez onepoint ont développé une méthode efficace pour ce type d’interventions qui rend possible l’explicabilité.
Lorsqu’un modèle d’apprentissage automatique est utilisé pour classer un texte, par exemple un classifieur chargé d’associer une profession à un CV, il est souvent essentiel de pouvoir expliquer cette décision. L’une des méthodes bien justifiées pour générer des explications consiste à analyser comment le classifieur réagit lorsque l’on modifie un ou plusieurs attributs du texte, toutes choses égales par ailleurs. Si, par exemple, on modifie le genre d’un prénom et que cela influence la prédiction du métier, on peut en conclure que cet attribut joue un rôle significatif. Ce type d’interrogation intervient notamment lorsque l’on souhaite garantir, pour des raisons d’équité, que certains attributs dits « protégés » ne jouent aucun rôle. On appelle contrefactuelles ces observations dans lesquelles un seul attribut a été modifié.
Cependant, lorsqu’il s’agit d’un texte, il n’est pas toujours possible de modifier directement ce dernier. Par exemple, changer uniquement le genre d’un film dans un commentaire n’est pas une opération bien définie. Dans l’article Explaining Text Classifiers with Counterfactual Representations qui sera présenté à la conférence ECAI 2024, Pirmin Lemberger et Antoine Saillenfest proposent une méthode de génération de contrefactuels où ils proposent d’intervenir sur les représentations du texte plutôt que sur le texte lui-même, ce qui en fait une méthode extrêmement flexible. Ils ont validé leur approche en réalisant des expériences sur des données synthétiques ainsi que sur des données pour lesquelles les véritables contrefactuels étaient connus. De plus, ils ont démontré la cohérence mathématique de leur approche en prouvant qu’elle s’intègre naturellement dans le cadre conceptuel dominant pour formuler les questions de causalité.