IA générative : les industries créatives (et les autres) ont-elles encore besoin de créateurs ?

L’IA générative est riche en potentialités pour les industries créatives, mais quel est l’impact pour les créateurs ?

L’IA générative, capable de créer et non plus seulement d’analyser

L’intelligence artificielle traditionnelle est dite « analytique » : elle analyse des données existantes pour les classer ou effectuer des prédictions. Contrairement à l’IA analytique, l’IA générative invente : elle crée des jeux de données nouveaux.

Ces données sont souvent des contenus au sens créatif du terme, qui n’étaient auparavant créés que par des humains : texte, image, son, vidéo, code…

L’IA générative est désormais capable d’en proposer d’une telle qualité qu’il n’est souvent plus possible de distinguer s’ils ont été créés par des humains ou par un algorithme[1]. En mélangeant les genres, les machines deviennent même capables d’originalité et de singularité.

Ces IA sont désormais accessibles au plus grand nombre : soit dans le cloud, soit par un modèle à télécharger[2].

« A supersayan man in front of the Eiffel Tower »

Une révolution pour les industries créatives

Leur usage est simple : il s’agit de générer un « prompt » en langage naturel, pour qu’une IA propose en quelques secondes un contenu correspondant.

L’impact direct est l’accélération et la démocratisation de la création de contenus. Les designers et les créateurs professionnels pourront nourrir et inspirer leurs propres créations à l’aide de moodboards personnalisés générés par de l’IA : c’est ce que propose par exemple la startup française Pimento[3]. Jusqu’à inventer de nouveaux genres mélangeant plusieurs styles, ou des contenus automatiquement personnalisés pour leurs clients et leur public.

Mais c’est aussi l’opportunité pour chacun de créer des contenus de qualité à coût réduit, sans faire appel à un professionnel. Autrement dit, les créateurs actuels auront aussi davantage de concurrence avec l’apparition de spécialistes du « prompt engineering »[4], un probable nouveau métier comme auparavant celui du SEO ou du community management, vivier de nouveaux créateurs.

L’IA générative a déjà un impact immédiat sur les banques d’image et leurs photographes. Après avoir banni les images générées par l’IA de leurs plateformes pour des raisons de droits d’auteur, les géants comme Getty Image ou Shutterstock ont noué des partenariats respectivement avec BRIA et OpenAI. Shutterstock[5] par exemple a licencié à OpenAI le droit d’utiliser ses images pour entraîner Dall-E, promettant de rémunérer leurs créateurs, et les clients de Shutterstock pourront générer des images inédites dans leur interface habituelle qui intègrera Dall-E2.

« Time Square painted in the style of Monet »

Tous les métiers créatifs sont touchés :

  • l’art numérique, une œuvre générée par une IA ayant même remporté un concours d’art[6] ;
  • le design de produits ou d’espace, notamment dans la mode, le luxe, l’architecture; ces designs pourront notamment mélanger les styles et être bien davantage personnalisés, y compris en 3D ;
  • la conception d’objets pour les jeux vidéo et les métavers (et demain probablement, de jeux et d’univers entiers en 3D au-delà des objets)[7] ;
  • l’illustration d’articles (à l’instar de celui-ci), de livres[8], de scénarios… et bientôt leur écriture (ChatGPT m’a proposé un premier jet convaincant, même s’il m’a surtout servi à ne pas oublier d’idées), leur résumé[9] et bien sûr leur traduction dans les principales langues mondiales ;
  • la communication, le marketing, la publicité avec la création de pitch, posts, descriptifs de produits ou illustrations : c’est ce que propose la licorne Jasper[10] ;
  • la création audio : il existe déjà de nombreuses musiques générées par des IA[11] ;
  • la création vidéo sera bouleversée dès que les modèles seront suffisamment performants ; Disney a déjà créé un outil pouvant rajeunir ou vieillir les acteurs à volonté[12], tandis qu’elia.io propose des présentateurs virtuels ;
  • l’enseignement et la formation, tant dans la pédagogie et l’apprentissage (leçons interactives générées par des IA en fonction du niveau de chaque élève) que dans l’évaluation des étudiants (ChatGPT étant capable de réaliser des devoirs à leur place jusqu’à l’université[13]).

 « A luxury, colorful travel bag, the shape of a pelican »

La profusion des contenus générés rendra crucial l’enjeu de leur distribution, donc de leur découvrabilité par le public ou les utilisateurs. En particulier grâce à des moteurs de recherche en langage naturel (Google ayant développé son propre modèle de langage LaMDA[14], encore non accessible au grand public et concurrent de ChatGPT) et à des algorithmes de recommandations intégrés aux outils s’appuyant sur l’IA générative.

La « gen tech » se développe de façon exponentielle

Les géants de la tech sont bien sûr très actifs, américains (Google, Meta, Microsoft notamment) et chinois (Baidu, Huawei…) voire coréens (Naver).

Au-delà émergent des collectifs de recherche[15] et des start-up comme Hugging Face (fondée par des Français), Stability AI, Jasper, devenues des licornes, ou Open AI, valorisée 29 milliards de dollars et anticipant un chiffre d’affaires d’un milliard de dollars en 2024[16]. L’ensemble concentre aujourd’hui l’attention du venture après les déboires récents du web3, et forme la « gen tech ».  Sequoia a par exemple proposé une carte des principales start up[17] et appelle les entrepreneurs à s’emparer du sujet[18].

Au-delà des industries créatives, des impacts majeurs dans tous les secteurs

L’impact de l’IA générative dépasse largement les industries créatives :

  • les codeurs utilisent déjà GitHub Copilot, un outil de génération automatique de lignes de codes créé par OpenAI, préfigurant l’avènement de la programmation en langage naturel ;
  • la production de rapports et présentations dans tout domaine sera facilitée : Microsoft par exemple, lié à Open AI, intègre Dall-E dans Office sous le nom de Designer[19] et réfléchit à intégrer une version de GPT ;
  • en particulier, la production de documents d’analyse juridique, stratégique, financière ou scientifique[20] sera accélérée par l’IA générative, même si pour l’instant celle-ci n’est pas conçue pour sourcer ses affirmations, étape indispensable ;
  • plus généralement, l’ensemble des logiciels de développement ou d’édition intègreront à terme une brique d’IA générative spécialisée sur leur domaine ;
  • la gestion de la relation client sera bouleversée par des moteurs de recherche conversationnels, ChatBots ou VoiceBots de nouvelle génération, ou des outils analysant les feedbacks[21], ou des créateurs automatiques de site web comme the.com ; la performance des assistants vocaux changera de dimension ;
  • Le champ de la data lui-même sera optimisé avec la possibilité de créer de nouvelles données d’entraînement ou de les anonymiser (en remplaçant par exemple des visages par de nouveaux synthétiques)[22] ;
  • la robotique pourra être à terme bouleversée, avec des impacts par exemple en logistique: l’IA générative saurait, à partir de photos d’entrepôts mal rangés, proposer une version rangée fournie ensuite comme instruction à des robots[23] ;
  • la génération par l’IA de nouvelles molécules impactera fortement la biotechnologie, la chimie, les sciences des matériaux

De nombreuses externalités sur lesquelles être vigilant

L’IA générative pose de nombreuses questions éthiques :

  • en matière de désinformation ou de hameçonnage : l’IA générative permettra de créer toujours plus de contenu vraisemblable, qu’il soit vrai ou faux. Faux email, faux communiqué de presse, faux tweet… Fausse image ou vidéo dans laquelle telle personnalité prononce tel discours ou fait telle action répréhensible, y compris pornographique[24]. Pour contrer cela, des techniques de watermarking par un filigrane invisible des contenus générés par une IA sont explorées, mais l’invisibilité de ces filigranes, si elle est classique pour les images et les vidéos, semble complexe pour les textes[25]. Plus hardie, la Chine imposera à compter de 2023 que les contenus générés par des IA soient marqués visiblement[26].
  • en matière d’erreurs : une IA générative textuelle est parfois confrontée à des hallucinations : elle peut générer des réponses fausses présentées comme vraies, notamment sur des domaines où elle a eu peu d’exemples pour s’entraîner, et ce alors que ces réponses ne sont par construction pas sourcées.
  • en matière d’environnement : l’entraînement de GPT-3 aurait eu l’empreinte carbone d’un aller-retour sur la lune en voiture[27]. L’AI générative nécessite des capacités de stockage et de traitement gigantesques, qui ont un impact environnemental.

« A devastated world with biomechanical plants »

  • en matière de propriété intellectuelle : une class action a été engagée en octobre 2022 contre OpenAI, Microsoft et sa filiale pour leur IA générative GitHub Copilot[28], entraînée à partir de codes open-source. Ces codes ne sont en principe réutilisables que si leurs créateurs sont mentionnés. Des procès similaires apparaîtront dans la génération de textes, d’images, de son, de jeux, de vidéo[29]…
  • en matière de biais et stéréotypes : les IA sont régulièrement épinglées pour renforcer les stéréotypes de genres ou raciaux, issus des données sur lesquelles elles ont été entraînées. L’IA générative n’échappe pas à ces critiques.
  • en matière d’éducation et d’emploi : en réduisant massivement les coûts de création de contenus, les IA génératives impliqueront le développement de nouvelles compétences et des transferts majeurs d’emplois. Certes les évolutions techniques ont toujours effrayé les hommes et modifié les compétences humaines utiles, depuis Socrate qui regrettait que l’écriture réduise la nécessité d’entraîner sa mémoire. Mais ne viendra-t-il pas un jour où l’on se demandera quelles seront ces compétences humaines utiles, si les machines savent tout mieux faire ?

Ces IA créeront une énorme valeur, puisque tant de gens sont déjà prêts à les utiliser, en payant ou en leur confiant leurs données personnelles à des fins publicitaires. Mais cette valeur économique ne prend pas en compte les externalités qui pourraient être colossales et implique une grande responsabilité de toutes les parties prenantes.

L’IA générative n’est que la première étape[30] vers une « AGI » : Artificial General Intelligence. Une telle IA serait au moins égale aux humains en matière d’intelligence générale et de coordination de différents savoir-faire[31], et incomparablement meilleure sur des compétences spécifiques. Ce type d’IA poserait des problèmes éthiques encore plus grands, explorés par des films comme The Matrix. C’est pourquoi, au-delà de l’IA générative, le thème de l’IA sécurisée (AI safety) et de l’alignement des objectifs d’une IA avec ceux des humains (AI alignment) sont des champs de recherche en explosion[32].

« A fight scene from Matrix, in the style of Munch »

Et onepoint dans tout ça ?

L’IA générative est riche en potentialités pour les industries créatives et au-delà pour tous les secteurs. Chez onepoint, nous aidons les entreprises à se transformer grâce à la data et l’intelligence artificielle de bout en bout, en répondant aux questions clefs :

  • quels cas d’usages l’IA générative peut-elle adresser ? Comment les prioriser ?
  • quelle proposition de valeur et quel modèle économique ?
  • quels outils techniques utiliser ou développer, comment les intégrer dans les systèmes d’information et processus existants ?
  • quels enjeux d’acculturation et d’accompagnement du changement pour les équipes ?
  • quels impacts éthiques et environnementaux ?

Onepoint accompagne de nombreux acteurs de tous secteurs. Quelques exemples dans les médias et industries créatives : Accor-Arena, Believe, Cinefrance, Deezer, Federation Entertainment, France Télévisions, Ministère de la Culture, Musée du Quai-Branly-Jacques-Chirac, Newen, Opéra National de Paris, pass Culture, Pathé-Gaumont, Radio France, la SACEM, la SCAM…

Onepoint dispose par ailleurs de plus de 300 experts data et IA, ainsi que de TALIA, laboratoire commun avec Télécom Paris spécialisé en Traitement Automatique du Langage par l’Intelligence Artificielle, et publie notamment des Data Issues, Data Trends annuelles.

 

Envie d’en savoir plus ?

Nous organisons le mardi 24 janvier 2023 un événement dédié à l’IA générative et le design assisté par l’intelligence artificielle, en présence notamment d’Etienne Mineur, designer, éditeur et enseignant français.

S'inscrire à l'événement

Article écrit avec ChatGPT et Lexica / Stable Diffusion.

Un peu de technique : les principaux algorithmes utilisés par l’IA générative

VAE – Variational Auto-Encoders (2013) Un encodeur est une partie d’un réseau de neurones qui encode les données dans un espace latent de plus faible dimension. Un autoencodeur reconstruit les données, et s’entraîne à réduire l’erreur entre les données reconstruites et celles d’origine, ce qui le force à apprendre à ne garder que les informations importantes. Il est notamment utilisé sur des images pour les compresser, en réduire le bruit, en gommer des détails. Un autoencodeur variationnel encode les données selon une distribution de probabilité et non plus un simple vecteur, ce qui force l’ensemble de l’espace latent à générer des images pertinentes. Pour générer une nouvelle image, il suffit alors de partir d’un point aléatoire de l’espace latent. Les autoencodeurs fonctionnent très bien sur des images ayant la même structure (par exemple, l’image d’un visage qui peut être caractérisé par la couleur de peau, de cheveux, le sourire, la rotation, etc.), structure qui sera apprise par l’encodage. Un défaut est que les VAE perdent de la finesse en encodant et génèrent des images parfois floues. Les VAE sont utilisés dans les modèles de diffusion latente comme Stable Diffusion : le modèle de diffusion tourne sur l’espace latent d’un VAE et non pas sur l’espace des images, ce qui nécessite moins de puissance et rend le modèle plus compact (on peut le télécharger). Les images sont décodées par ce VAE (et une image « prompt » est aussi encodée par ce VAE dans le cas d’une génération à partir d’une image).

GAN – Generative Adversarial Networks (2014). Deux réseaux de neurones sont mis en compétition, l’un pour générer un contenu à partir d’un vecteur aléatoire de faible dimension, l’autre pour discriminer si ce contenu est une image réelle ou créée artificiellement. Les deux réseaux de neurones sont entraînés en même temps par la minimisation d’une fonction d’objectif conjointe sur un jeu d’images similaires (ex : des chats, des visages, des voitures…), progressivement avec une résolution croissante. Cela permet au réseau générateur d’apprendre et d’encoder les traits importants qui rendent une image réaliste. Une fois un générateur entraîné, on peut lui apprendre à trouver un vecteur de départ correspondant à une image spécifique (par exemple le visage de Barack Obama), pour ensuite jouer sur ses caractéristiques. Les GAN sont ainsi très adaptés pour créer des images spécialisées, changer leurs caractéristiques clefs (âge, sexe, sourire, lunettes…)[33], ou pour détailler des images plus générales obtenues par un modèle de diffusion, ou manquant de finesse (les super resolution GAN sont des GAN spécifiques entraînés pour améliorer la finesse de n’importe quelle image). Un de leur défauts est que l’entraînement est instable, que les images générées mélangent difficilement plusieurs concepts et peuvent manquer de variété.

Flow-based generative models (2015). Ces modèles fonctionnent comme des autoencodeurs, sauf que l’encodage répond à des contraintes particulières : il est effectué par une suite de fonctions inversibles, qui conservent donc la dimension de départ, le décodage s’effectuant en appliquant successivement les inverses de ces fonctions. Les modèles de flow permettent de générer des images de meilleure définition que les VAE. Un défaut est que l’entraînement bien est plus lent et coûteux.

Transformers (2017). Dans le domaine du traitement automatique du langage, les précédents réseaux de neurones, dits récursifs, traitent chaque mot (ou courte séquence de mots) à la suite comme un lecteur humain (parfois avec une mémoire qui modélise la pensée). Ces réseaux sont longs à entraîner car les calculs sont difficiles à distribuer, chaque mot (ou courte séquence) devant être lu(e) à la suite. Ils sont aussi mal adaptés pour comprendre de longs textes. Dans un Transformer, les mots lus sont tous traités en parallèle, quelle que soit la taille du texte, ce qui permet des calculs distribués et donc de s’entraîner sur beaucoup plus de données. Un Transformer comprend aussi mieux les longs textes. Par ailleurs, un Transformer encode les mots avec leur position dans une phrase, d’une part, et avec « l’attention » qui doit être portée aux autres mots, d’autre part. C’est-à-dire qu’il apprend le contexte de chaque mot dans un texte. GPT-3 (General Pre-Trained Network) est un Transformer entraîné sur des tera-octets de textes (davantage que l’ensemble du web public) à deviner des mots masqués. Ce qui lui a permis d’apprendre les relations entre les mots, dont les règles grammaticales, et même les raisonnements présents dans ces textes. Les mécanismes des Transformers peuvent s’appliquer aux images : attention à d’autres régions de l’image, position, etc. — on parle de Vision Transformer.

Reinforcement learning from Human Feedback – RLHF (2017). Ces techniques permettent, grâce à un système de récompense nourri par des exemples fournis par des humains, à un modèle de s’aligner davantage avec ce qui est attendu par ses utilisateurs.  Notamment en évitant de répondre par des erreurs (appelées des hallucinations) et de reproduire les biais appris dans les données d’entraînement, ou en distinguant et repoussant les questions malveillantes, ou encore en apprenant à répondre à des instructions, ou à des tâches plus spécifiques. ChatGPT, par exemple, est une version de pré-entraînée de GPT-3, dont l’entraînement a été complété par RLHF[34]. Cette technique, couplée à une interface utilisateur, et à un entraînement additionnel sur des images ou vocabulaire spécifiques, permet ainsi de créer des applications spécialisées à partir de modèles généraux pré-entraînés.

Modèles de diffusion (2020). Inspirés par la thermodynamique, ces modèles apprennent comment débruiter une image à partir d’une image cible, en générant des images bruitées en guise de jeu d’entraînement. Ce débruitage est appris par un réseau de neurone convolutionnel classique repérant les caractéristiques de l’image (courbes, aplats, textures…), et gommant le bruit pour les rendre plus saillantes. Les modèles de diffusion appliquent ensuite cette technique de débruitage à une image de départ aléatoire, ce débruitage pouvant être conditionné à correspondre à une cible décrite par un prompt donné (sous forme de texte, d’image…). Dall-E2 est un exemple de modèle de diffusion. Un défaut est que l’entraînement peut être long et coûteux. Pour être plus compact, un modèle de diffusion peut être entraîné sur un espace latent de plus faible dimension généré par un VAE : c’est le cas de Stable Diffusion : cela le rend plus facile à entraîner et plus léger (Stable Diffusion est téléchargeable contrairement à Dall-E2). Les détails sont alors parfois flous, c’est pourquoi un GAN peut être utilisé pour affiner l’image, notamment les visages.

CLIP – Constrastive Language-Image Pretraining (2021). Algorithme entraîné sur 400 millions de paires légende/image pour faire correspondre au mieux l’encodage d’une légende (réalisé par un Transformer) et l’encodage de l’image correspondante (réalisé par un Vision Transformer). CLIP permet ainsi de calculer une distance entre une image et une légende. Dans des modèles de génération d’image, CLIP est utilisé pour minimiser cette distance, afin que l’image générée corresponde le mieux au « prompt ».

Auteur : Nicolas Gaudemet

Partner, Chief AI Officer