Effacement non linéaire de concepts : une approche par appariement de densité
Dans le contexte croissant de l’IA responsable, un défi majeur consiste à garantir que les modèles de traitement automatique du langage ne puissent pas inférer d’informations sensibles à partir des données, comme le genre ou l’origine ethnique. Ces informations, bien qu’implicites, peuvent être apprises et exploitées par les modèles lors de la phase d’entraînement, au risque d’introduire ou de renforcer des biais dans les prédictions.
Dans leur article récemment publié, Antoine Saillenfest et Pirmin Lemberger proposent une solution innovante à ce problème. Leur méthode, baptisée LEOPARD, vise à supprimer sélectivement les informations liées à un concept sensible — comme le genre ou la race — dans les représentations textuelles issues de modèles préentraînés, tout en préservant le reste de l’information sémantique.
Contrairement aux approches classiques, LEOPARD s’appuie sur une projection orthogonale dans l’espace des embeddings, conçue pour rendre les distributions conditionnelles de chaque classe du concept à effacer totalement indiscernables après transformation. Ce mécanisme permet d’effacer l’information de manière non linéaire, c’est-à-dire qu’aucun prédicteur, même complexe, ne peut retrouver le concept une fois effacé.
L’un des points forts de cette approche réside dans la possibilité d’ajuster le rang de la projection. Cela permet de contrôler le niveau d’effacement de l’information tout en préservant la structure locale des données, garantissant ainsi une conservation de la richesse sémantique. Testée sur plusieurs jeux de données standards en traitement du langage naturel, cette méthode a démontré des performances de pointe en matière d’effacement d’attributs sensibles, tout en contribuant à une réduction significative des biais dans les modèles en aval.
LEOPARD ouvre ainsi de nouvelles perspectives pour des IA plus équitables, en permettant de concilier précision, transparence et respect des critères de non-discrimination.
Ces travaux ont été réalisés dans le cadre de l’Institut Onepoint, entité en charge de la coordination de la R&D chez Onepoint, au sein du laboratoire TALia qui est spécialisé dans le traitement du langage.