Qu’est-ce que l’IA Générative ? Définition et Fonctionnement

Qu’est-ce que l’IA générative et comment ça fonctionne ?

Andréa Bensaid

21/08/24

L’intelligence artificielle est une technologie révolutionnaire que l’on retrouve partout (dans nos ordinateurs, nos téléphones, nos voitures, nos maisons et même nos appareils électroménagers), mais qui a la particularité d’être invisible.

Elle reste habituellement cantonnée aux coulisses et ne montre jamais son visage

Alors que l’IA générative a d’autres ambitions : elle entend occuper le devant de la scène, jouer un rôle déterminant (et apparent) dans la course du monde.

Le succès remporté ces dernières années par des applications comme Midjourney, ChatGPT ou HeyGen marque, en effet, le commencement d’une nouvelle ère : celle de la démocratisation de l’intelligence artificielle… notamment au sein des entreprises, puisqu’un tiers d’entre elles utilisent déjà ces outils, selon McKinsey.

Alors, qu’est-ce que l’IA générative, comment fonctionne-t-elle, et quelles sont ses applications concrètes – mais aussi ses limites et ses risques ?

Qu’est-ce que l’IA générative ?

Commençons par répondre à la question « qu’est-ce que l’IA générative ? ». Cette expression désigne un type de programme capable de créer des contenus de manière autonome, en réponse à des requêtes formulées par les utilisateurs (des « prompts »).

Les applications d’IA générative peuvent ainsi produire des textes, des images, des vidéos ou de la musique, mais aussi raconter des histoires ou entretenir des conversations.

D’une certaine manière, la « GenAI » (pour Generative AI) incarne une nouvelle étape dans le développement de l’intelligence artificielle, après le machine learning et le deep learning (voir schéma ci-dessous) dont elle est une subdivision.

Elle peut être entraînée à comprendre le langage humain et le code informatique, à reconnaître des images et des sons, à traduire ou synthétiser des contenus existants, mais aussi à intégrer toutes sortes de connaissances complexes dans n’importe quel domaine – en imitant au mieux le fonctionnement du cerveau.

Au même titre que les applications de deep learning, elle s’appuie sur ses données d’entraînement pour résoudre des problèmes et pour étendre ses propres compétences, afin de s’améliorer en continu.

(Source : Medium)

Mais l’IA générative a aussi une autre particularité, qui fait toute la différence : elle est directement accessible au grand public.

Contrairement aux programmes de machine learning ou de deep learning, qui sont incorporés à des algorithmes et restent invisibles, la GenAI est intégrée à des outils qui servent d’interfaces pour les utilisateurs.

Pour faire une analogie technique, l’IA traditionnelle s’apparente au back-end (la partie d’un site ou d’une application que l’on ne voit pas) et l’IA générative au front-end (la partie avec laquelle on interagit).

Voilà pourquoi ces outils rencontrent un grand succès, à l’image de ChatGPT (pour le texte), Midjourney ou Dall-E (pour les images), HeyGen ou Gen-2 (pour la vidéo) ou Suno (pour la musique) : n’importe quel utilisateur peut ouvrir une application et produire du contenu en quelques clics, sans connaissance technique préalable, et sans formation créative d’aucune sorte.

ChatGPT, en particulier, a largement contribué au bond en avant qu’a connu l’IA générative ces deux dernières années.

À tel point que le marché a doublé entre 2022 et 2023, passant de près de 22 milliards d’euros à 42 milliards d’euros.

Les analystes prédisent une croissance annuelle moyenne de 24 % jusqu’à 2030, soit un chiffre d’affaires annuel de plus de 200 milliards d’euros à terme.

Quant au nombre d’utilisateurs, il devrait atteindre plus de 700 millions en 2030, contre 250 millions aujourd’hui.

(Source : Statista)

Comment fonctionne la GenAI ?

Pour fonctionner, l’IA générative s’appuie sur des modèles sophistiqués d’apprentissage profond, ou deep learning : des algorithmes conçus pour simuler le fonctionnement du cerveau, par le biais de réseaux artificiels de neurones.

Ces « modèles de fondation » sont entraînés sur de larges volumes de données, dans lesquels ils identifient et codent les schémas et les relations.

Globalement, ces programmes génératifs opèrent en trois phases : l’entraînement, le réglage, puis la phase de génération-évaluation et de nouveau réglage.

L’entraînement. Toute IA générative démarre par un modèle de fondation basé sur le deep learning, celui-ci pouvant servir à développer plusieurs applications distinctes. Il existe différents modèles de ce type, comme les grands modèles de langage (LLM) pour l’apprentissage du langage naturel et la génération de texte, ainsi que des modèles variés pour les images, les vidéos, les sons ou les musiques. Certains sont capables de prendre en charge plusieurs formats : on parle alors de « modèles multimodaux ». Alimentés par d’énormes volumes de données brutes (non structurées et non étiquetées), ces modèles s’entraînent à prédire les éléments suivants d’une séquence spécifique et à ajuster leurs processus en continu afin de s’approcher toujours plus des données réelles ou du résultat correct. C’est une procédure longue, coûteuse, et gourmande en ressources informatiques.
Le réglage. À ce stade, le modèle de fondation se spécialise après une longue séquence de formation générique, à la façon d’un étudiant en médecine qui bifurque vers une discipline particulière après des années de tronc commun. Ce faisant, le modèle est « adapté » à une tâche de génération de contenu spécifique en utilisant différentes techniques, comme le réglage fin supervisé (SFT), le réglage précis des paramètres (PEFT), ou encore l’apprentissage par renforcement à partir des commentaires humains (RLHF).
La phase de génération-évaluation et de nouveau réglage. Cette dernière étape englobe la production de contenu et les ajustements apportés au modèle. En effet, les développeurs évaluent en continu les résultats des modèles, et procèdent aux nouveaux réglages nécessaires afin de les perfectionner. Cette mise à jour peut être hebdomadaire ou mensuelle, par exemple. Une autre méthode, appelée génération augmentée par récupération, consiste à étendre le modèle de fondation en employant des sources externes aux données d’entraînement, afin de compléter et d’affiner les paramètres – notamment des informations plus récentes, comme celles qu’apportent les utilisateurs qui communiquent avec lui.

Il s’agit là du processus générique. À partir de là, différents modèles de GenAI ont été développés ces dernières années, chacun avec ses caractéristiques propres.

Les plus courants (et les plus efficaces) sont les modèles de diffusion qui créent des données selon une approche itérative, les réseaux antagonistes génératifs qui entraînent deux réseaux neuronaux de manière compétitive (un générateur et un discriminateur), les auto-encodeurs variationnels qui forment des représentations compactes des données, et les transformateurs entraînés sur de grands ensembles de données non étiquetées.

Ces derniers sont employés dans les outils d’IA qui génèrent du texte, comme ChatGPT.

Que peut faire l’IA générative ?

Répondre à la question « qu’est-ce que l’IA générative ? » est une chose. Mais cette plongée dans les rouages techniques de l’intelligence artificielle ne nous dit pas ce qu’elle sait faire.

Alors, de quoi est capable l’IA générative ? Et en quoi est-elle si différente des modèles traditionnels de machine learning et de deep learning ? Découvrez ses principaux talents.

La génération de texte. Les modèles basés sur les transformateurs (en particulier) sont capables de produire des textes cohérents, et surtout pertinents dans un contexte donné. Ils sont utilisés pour générer des articles de blog, des documents, des rapports, des emails, des brochures, des instructions, voire de la littérature – ChatGPT peut créer une fiction, une poésie ou les paroles d’une chanson de manière convaincante.
La génération d’images et de vidéos. Connus des utilisateurs depuis plusieurs années, les outils de génération d’images peuvent créer des visuels (photos ou vidéos) d’un réalisme de plus en plus trompeur. Des outils comme Midjourney ou Dall-E ont atteint un niveau de qualité étonnant. Ils peuvent aussi prendre en charge des tâches d’édition, d’amélioration des visuels, de transposition d’une image à l’autre, de création d’animations ou de vidéos à partir de texte, etc. Ce sont ces applications de l’IA générative en particulier qui défraient la chronique, parce qu’elles produisent de fausses photographies difficilement dissociables de la réalité, comme celles, fameuses, montrant le Pape en doudoune ou Donald Trump en train de se faire arrêter par la police.
La génération de sons et de musique. Les modèles génératifs sont aussi capables de produire des contenus audio et vocaux. Ils sont utilisés pour donner une voix à un chatbot, pour faire la lecture de livres audio, mais aussi pour créer de la musique en combinant instrumentation et chant, en imitant la structure des compositions professionnelles (comme le fait Suno).
La génération de code informatique. Certains outils peuvent produire des lignes de code, permettant aux développeurs de créer des applications rapidement et de compléter des extraits de code manquants. Des solutions comme OpenAI Codex ou Github Copilot font des suggestions de code pertinentes, voire génèrent du code fonctionnel dans différents langages de programmation de façon autonome.
La création de données synthétiques. Les modèles peuvent être formés à générer des données synthétiques, c’est-à-dire des données artificielles conçues pour imiter les données du monde réel. Ces informations sont utilisées pour alimenter les modèles de fondation, sans compromettre la vie privée des personnes – par exemple, lorsqu’on souhaite entraîner un programme de deep learning à partir de données médicales, sans pour autant recourir aux informations sensibles de patients réels.

Quelles sont les applications de l’IA générative en entreprise ?

Ces multiples talents de l’IA générative sont certes exaltants, mais en l’état, ils restent assez vagues.

Or, les entreprises sont toujours plus nombreuses à implémenter des applications de GenAI, et Gartner prévoit que 80 % d’entre elles en auront déployé d’ici 2026.

Cela signifie que leurs usages de l’intelligence artificielle générative sont bien plus concrets et pratiques. Voici quelques applications de cette technologie dans les organisations.

La création de contenus dans différents formats

C’est l’application la plus évidente, compte tenu de la capacité des outils d’IA générative à créer n’importe quel type de ressource textuelle, visuelle ou sonore.

Les entreprises y ont massivement recours pour alimenter leurs campagnes marketing et publicitaires, notamment lorsqu’il s’agit de produire un très grand nombre de contenus (par exemple : des fiches produits pour une plateforme e-commerce).

À ce titre, on note que 48 % des marketeurs utilisent l’intelligence artificielle générative pour créer du contenu, devant l’analyse de données et l’apprentissage, et que 28 % d’entre eux s’en servent pour produire des emails ou pour y répondre (HubSpot).

C’est d’autant plus intéressant qu’une majorité d’utilisateurs (63,5 %) n’est pas capable de faire la différence entre un texte de ChatGPT et un autre rédigé par un humain (Tooltester).

L’amélioration de l’expérience client

La faculté de l’IA générative à produire du contenu qualitatif sur demande permet aussi aux entreprises d’affiner leurs actions marketing et, ce faisant, d’offrir à leurs prospects et clients une expérience optimisée.

Cela, en produisant des textes, des emails et des visuels personnalisés, qui tiennent compte de l’audience cible, du positionnement des contacts dans le parcours d’achat, des contraintes de chacun·e, et du message marketing à faire passer.

Autre bienfait de l’IA générative en matière d’expérience client : la pertinence des réponses données par les chatbots de nouvelle génération.

Ceux-ci sont devenus de véritables agents conversationnels virtuels qui savent répondre à des questions simples, ajuster leur comportement en fonction de l’interlocuteur, lancer des actions spécifiques à partir de déclencheurs déterminés en amont (comme transférer une conversation vers la personne compétente), mais aussi remonter les informations dans les meilleurs délais.

Au-delà de l’enrichissement de l’expérience des internautes, ce type d’outil contribue à optimiser l’efficacité des conseillers qui gagnent du temps en ne prenant en charge que les requêtes les plus complexes.

L’aide au développement informatique

S’ils ne peuvent pas encore remplacer les développeurs, les outils d’IA générative sont néanmoins efficaces lorsqu’il s’agit de leur donner un coup de pouce : ils sont capables d’automatiser le processus d’écriture du code, ce qui permet de gagner un temps précieux dans la réalisation des tâches répétitives, en rédigeant du code en quelques jours plutôt qu’en quelques semaines.

Ils réduisent aussi le temps nécessaire à la réalisation des tests.

Mais ce n’est qu’une partie des possibilités. L’intelligence artificielle aide les développeurs web en générant automatiquement des maquettes et des designs pour les sites (avec de nombreuses options de conception), en personnalisant l’interface utilisateur en fonction des besoins individuels, en détectant et en corrigeant les erreurs de code, et bien sûr en générant du contenu optimisé (textes, images, vidéos) pour remplir les pages du site internet.

L’optimisation de l’environnement de travail numérique

On aurait tort de limiter le potentiel de la GenAI à la seule automatisation des tâches (ce que savent très bien faire les programmes d’intelligence artificielle « classiques »).

En réalité, cette technologie est capable d’aller bien plus loin, et de remodeler en profondeur les expériences des employés dans un environnement de travail numérique basé sur le Cloud. Toutes les applications et les données, tous les outils et les workflows utilisés dans le digital workplace peuvent bénéficier de l’IA générative pour…

L’analyse des données – afin de fournir aux dirigeants des informations viables en temps réel, et de leur permettre de prendre de meilleures décisions.
Les processus métiers – en assistant les employés dans leurs missions de planification, d’organisation et de rédaction de documents juridiques.
La recherche d’informations – en soulageant les collaborateurs d’une tâche chronophage et pourtant indispensable.
La maintenance – en aidant les opérateurs humains à détecter des problèmes potentiels et des freins à la productivité dans des environnements digitaux complexes, composés de plusieurs solutions et plateformes.
La surveillance – en renforçant les mesures de sécurité physiques et digitales, afin de mieux protéger les environnements numériques comme les locaux de l’entreprise.

L’assistance à la recherche et à l’ingénierie

Les modèles d’IA générative sont également utilisés par les scientifiques et les ingénieurs dans leurs travaux quotidiens.

D’après une étude menée par la revue Nature, 31 % des chercheurs en postdoctorat dans 93 pays déclarent utiliser des outils GenAI dans leur secteur d’activité, en particulier dans les domaines de l’ingénierie et des sciences sociales.

Parmi eux, 17 % s’en servent tous les jours, notamment pour gagner du temps, optimiser le code informatique, préparer des manuscrits, concevoir des supports de présentation… Mais aussi pour améliorer leurs protocoles expérimentaux, par exemple en synthétisant des données artificielles pour nourrir leurs propres programmes d’IA et les entraîner à détecter des tumeurs dans l’imagerie médicale.

Quels sont les risques et les défis de l’IA générative ?

Impossible de conclure cet article sans évoquer le côté obscur de l’IA générative : les risques qu’elle fait peser et les défis majeurs auxquels sont confrontés ses utilisateurs.

Sans chercher à être exhaustive, la liste ci-dessous entend pointer du doigt les principales problématiques amenées par l’essor de la GenAI et par sa démocratisation rapide.

Les « hallucinations ». Le fait que l’IA commette des erreurs n’est pas un problème en soi : tout système informatique y est sujet.

Mais l’IA générative ne se contente pas de se tromper : elle est capable de proposer un résultat erroné, voire totalement absurde, en le rendant parfaitement plausible.

Les exemples sont nombreux de professionnels ayant rapporté les inventions de ChatGPT dans divers domaines, comme sa capacité à inventer des références scientifiques pour appuyer son propos.

Ces « hallucinations » représentent un grand danger, malgré les garde-fous mis en place par les développeurs, car susceptibles d’induire en erreur même les esprits les mieux exercés.

L’incohérence des résultats. Les outils d’IA ne fournissent pas toujours la même réponse, y compris lorsque les données d’entrée sont identiques : cela est dû à la nature probabiliste ou variationnelle des modèles. La différence peut être infime… ou significative. Avec des conséquences potentiellement majeures dans le domaine scientifique, ou même, plus pragmatiquement, en matière de service client (imaginez dix consommateurs obtenant une réponse distincte à leur demande).
Les biais. Comme le cerveau humain qu’ils cherchent à imiter, les modèles d’IA générative sont sujets à des biais sociétaux et culturels, dès lors que ceux-ci sont présents dans les jeux de données utilisés pour leur entraînement – ou dans l’esprit des développeurs humains qui les affinent. Par conséquent, les résultats donnés peuvent eux-mêmes être biaisés, et donc offensants, insultants ou injustes.
La sécurité. Il n’aura fallu que quelques mois pour que ChatGPT soit détourné de son usage « normal » pour devenir un levier de piratage : des hackers du monde entier se servent de cet outil pour préparer leurs cyberattaques, selon un rapport publié par Microsoft et OpenAI. Ainsi, les modèles de GenAI peuvent être utilisés pour créer de fausses identités, pour générer des emails de phishing, ou pour inciter les internautes à révéler des données confidentielles. Sans parler du fait qu’il est possible d’induire certaines réponses de l’outil en trafiquant les données de base employées pour son entraînement.
L’éthique. Les modèles d’IA générative sont alimentés par d’énormes quantités de données, souvent tirées de plateformes informatives sur le web comme Wikipédia. Or, ces contenus utilisés pour nourrir les programmes informatiques ne sont pas toujours libres de droits. Ce qui représente à la fois un défi éthique et juridique, dans la mesure où l’IA est exclue de la protection du droit d’auteur en l’absence d’intervention humaine. Est-ce la porte ouverte au libre piratage de la propriété intellectuelle ?
L’authenticité des contenus. Si l’intelligence artificielle est capable de créer n’importe quel type de contenu de façon réaliste et pertinente, comment le public sera-t-il en mesure de distinguer le vrai du faux ? La question de l’authenticité des contenus touche tous les domaines : des milliers de livres rédigés par l’IA sont publiés chaque jour sur Amazon, des photos hyperréalistes (mais fausses) font le tour du web, des enregistrements audio ou vidéo truqués mettent en difficulté des leaders politiques. Le nombre de deepfakes a ainsi augmenté, d’une année sur l’autre, de 3 000 % aux États-Unis, de 3 050 % au Vietnam, et de 4 500 % aux Philippines (Statista) !

L’IA générative est indiscutablement une avancée technologique majeure, avec la capacité de transformer durablement les usages et les processus métiers, tout en ayant le potentiel de révolutionner des secteurs comme la science, l’ingénierie, la santé ou l’énergie.

Mais, comme toute innovation de grande ampleur, la GenAI n’est pas sans risques : les défis qu’elle pose à l’humanité sont là pour nous rappeler que l’intelligence artificielle, aussi puissante et prometteuse soit-elle, doit absolument rester sous le contrôle des humains.

C’est la condition sine qua non pour qu’elle soit utilisée de manière pertinente, légale, et éthique.

Andréa Bensaid, 21 August. 2024

Suivre le podcast

S’abonner au podcast

Recevez mes derniers podcasts directement dans votre boîte mail.

Abonnez-vous