Blog
Qu’est-ce que le deep learning et comment fonctionne cette branche de l’intelligence artificielle ?

Qu’est-ce que le deep learning et comment fonctionne cette branche de l’intelligence artificielle ?

Andréa Bensaid, Eskimoz CEO
Andréa Bensaid
25/07/24
Deep learning

Les médias parlent généralement de l’intelligence artificielle comme d’un tout homogène, d’une technologie qui avance tout d’un bloc. Mais la réalité est bien différente.

Il faut plutôt voir l’IA comme une discipline globale qui bifurque sur une infinité de spécialisations, dont certaines cherchent à approfondir les possibilités offertes par le concept de base – imiter l’intelligence humaine au mieux.

Le deep learning est l’une de ces spécialisations, et pas n’importe laquelle : c’est la pierre angulaire de l’IA, une approche qui entend révolutionner la manière dont les machines comprennent et apprennent, et la façon dont elles interagissent avec des volumes astronomiques de données.

C’est aussi la sous-division de l’intelligence artificielle qui génère les promesses les plus folles en matière de résolution des problèmes de l’humanité. Alors, qu’est-ce que le deep learning et comment ça fonctionne ?

Qu’est-ce que le deep learning ? Une définition

Pour faire simple, le deep learning (littéralement « apprentissage profond ») est une sous-catégorie du machine learning, qui est lui-même une sous-discipline de l’intelligence artificielle.

Le terme désigne une technologie qui repose sur des algorithmes capables de mimer les actions du cerveau humain grâce à des réseaux artificiels de neurones, et de prendre des décisions extrêmement complexes.

On pourrait aller plus loin en soulignant que l’IA générative, mise sur le devant de la scène avec ChatGPT, est elle-même une ramification du deep learning.

Autrement dit, de nombreuses applications d’IA que nous utilisons au quotidien reposent au moins en partie sur une forme ou une autre d’apprentissage profond.

Le gros avantage du deep learning réside dans sa courbe de performance quasi-illimitée.

Alors que les algorithmes classiques cessent de s’améliorer après un seuil de saturation, les modèles d’apprentissage profond continuent de fonctionner à mesure qu’on les alimente avec des données.

Cela leur permet de résoudre des problèmes complexes comme de remporter des victoires à des jeux stratégiques contre des humains, de reconnaître des visages, de conduire des voitures autonomes, ou encore d’identifier des problèmes en imagerie médicale.

Deep learning VS machine learning VS intelligence artificielle

Pour bien saisir les enjeux du deep learning, il est nécessaire de maîtriser les notions qui le précèdent, telles qu’affichées dans le schéma ci-dessous.

Schema Deep Learning

(Source : Medium)

L’intelligence artificielle désigne l’ensemble des technologies qui enseignent aux programmes informatiques à se comporter comme des humains, et à imiter leurs capacités cognitives et intellectuelles.

Cela inclut la prise de décision, la compréhension du langage, la reconnaissance d’objets et la résolution de problèmes.

  • Le machine learning part des prémisses de l’IA pour développer des applications capables non seulement de « raisonner », mais aussi d’apprendre afin d’améliorer leurs compétences dans la réalisation d’une tâche donnée ou d’une série de tâches, sans intervention humaine. On enseigne à la machine les bases d’un problème en l’alimentant avec des données, puis on la laisse faire des prédictions et des classifications par elle-même.
  • Le deep learning se propose d’aller encore plus loin dans la direction montrée par le machine learning : les modèles informatiques deviennent capables de s’entraîner seuls pour accomplir des tâches complexes, comme la compréhension du langage naturel, la reconnaissance visuelle, la génération de contenu ou l’analyse prédictive.

Le deep learning comme approfondissement du machine learning

Le deep learning apparaît ainsi comme un approfondissement du machine learning, avec des modèles qui savent reconnaître et extraire des schémas complexes au sein de gros volumes de données, et en tirer des informations plus précises, donc exploitables.

Avec un avantage majeur : alors que les modèles traditionnels de machine learning s’appuient essentiellement sur de l’apprentissage supervisé (les données sont structurées et étiquetées avant d’être présentées au programme, afin d’obtenir des résultats précis), les modèles de deep learning sont entraînés par le biais de processus d’apprentissage non supervisé (donc à partir de données brutes, non structurées).

En effet, en machine learning, ces données non structurées représentent un trop gros challenge, dans la mesure où elles peuvent présenter des variations infinies.

Mais en deep learning, un programme est capable d’extraire seul les caractéristiques essentielles dans un jeu de données, et de comprendre la relation entre ses composantes.

Ce faisant, un modèle de deep learning peut aussi analyser de plus grandes quantités de données et le faire plus en profondeur, afin d’y déceler des informations pour lesquelles le programme n’a pas été formé à la base.

C’est sur ce principe que fonctionnent les algorithmes de recommandation que l’on trouve sur les sites e-commerce ou les plateformes de streaming : le réseau neuronal compare les données (en l’occurrence, les habitudes des consommateurs) afin de faire des suggestions basées sur l’historique des clients similaires.

Pour y parvenir, cette technologie s’appuie sur des architectures de réseaux neuronaux artificiels qui imitent le fonctionnement de notre cerveau. Justement, il est temps de voir comment fonctionne le deep learning.

Comment fonctionne le deep learning ?

Les algorithmes de deep learning sont appelés « réseaux neuronaux » et miment le fonctionnement du cerveau humain, et plus exactement de la manière dont le cerveau traite et classifie l’information – en la faisant transiter par des millions de neurones interconnectés.

Les réseaux de neurones artificiels des modèles d’apprentissage profond (fabriqués en silicium) sont constitués de couches multiples, elles aussi interconnectées, qui travaillent à résoudre des problèmes de plus en plus complexes à mesure que l’information transite de l’une à l’autre.

L’originalité, par rapport au machine learning « classique », vient du fait que les données n’ont pas besoin d’être structurées en amont. Le programme fait le travail seul, comme le montre le dessin suivant :

Deep Learning

(Source : Turing)

Pour ce faire, ces réseaux sont composés de plusieurs couches de nœuds interconnectés, de sorte que les calculs « progressent » à travers le réseau en passant d’une couche à l’autre : c’est ce que l’on appelle la propagation avant.

En substance, au lieu de passer d’un point A à un point B, les informations transitent par une quantité déterminée de couches (B, C, D, E…) qui permettent d’affiner l’apprentissage du programme, avant de ressortir via une couche finale.

Certains modèles utilisent aussi un algorithme pour « remonter » dans les couches afin de corriger les erreurs éventuellement commises, et ainsi fournir des données plus précises en fin de parcours.

Quelles sont les différentes couches d’un réseau neuronal artificiel ?

Amusons-nous maintenant à décomposer les couches d’un réseau neuronal profond :

  1. La couche d’entrée du système, dite « visible », est constituée de plusieurs nœuds. Elle ingère les données à traiter avant de les transmettre aux couches situées plus profondément dans le réseau.
  2. Les couches cachées traitent les informations reçues en adaptant leur comportement au fur et à mesure. Pour simplifier, on peut imaginer que chaque couche se charge d’analyser un problème sous un angle différent, ou en posant une question spécifique, avant que le système dans son entier s’occupe de traiter et de trier l’ensemble des réponses trouvées. Par exemple, dans un modèle de deep learning qui cherche à reconnaître l’image d’un chat, chacune des couches va analyser une caractéristique différente de l’animal afin de la catégoriser avec un maximum de précision : les oreilles, les moustaches, les pattes, la couleur des yeux, etc. Plus il y a de couches, et plus les performances du modèle seront élevées – car il aura été mieux « entraîné ».
  3. La couche de sortie (« visible » aussi) se compose de nœuds chargés de produire les données : un nœud par type de réponse. Par exemple, un modèle amené à répondre par « oui » ou par « non » dispose de deux nœuds à ce niveau. Cette couche permet de prédire ou de classifier les informations.

Bien sûr, cela n’est qu’une simplification un peu grossière du fonctionnement d’un réseau neuronal artificiel.

La réalité est d’autant plus complexe qu’il existe différents types de réseaux adaptés à des jeux spécifiques de données ou à des problèmes particuliers à résoudre : réseaux convolutifs, récurrents, antagonistes génératifs, mais aussi modèles de diffusion ou de transformation (les fameux Transformers utilisés, entre autres, pour les programmes d’IA générative comme ChatGPT).

Quelles sont les limites du deep learning ?

En somme, le deep learning vient approfondir les processus de machine learning en apportant des avantages conséquents, ce qui permet de concevoir des applications concrètes extrêmement performantes (comme nous le verrons plus loin).

Pour autant, cette approche a des limites qui se traduisent en défis tangibles pour les équipes qui conçoivent et entraînent de tels modèles.

  • D’une part, un programme de deep learning doit être entraîné sur une (très) grande quantité de données, mais aussi sur des données de haute qualité – c’est la clé pour obtenir des résultats optimaux. Si le jeu de données d’entrée est parsemé d’erreurs, ou si des valeurs aberrantes s’y sont glissées, cela est susceptible d’affecter significativement le processus d’apprentissage. Par exemple, si un modèle entraîné à reconnaître des chats sur des images recevait par mégarde des visuels de chiens, il serait amené à intégrer ceux-ci dans la même catégorie que les félins.
  • D’autre part, le fonctionnement d’un modèle de deep learning suppose de disposer d’une grande puissance de traitement, afin d’effectuer les calculs intensifs nécessaires à son entraînement. Au-delà de l’importance de l’infrastructure, celle-ci devant être adaptée à ce besoin spécifique, c’est aussi un processus qui consomme une énorme quantité d’énergie.

Enfin, il faut tenir compte d’une problématique un peu à part, mais qui constitue un défi majeur pour les ingénieurs : le manque de transparence des programmes de deep learning.

Car le traitement des données par la machine est si complexe, et s’appuie sur un si grand nombre d’informations, qu’il s’avère extrêmement compliqué de comprendre comment le modèle parvient à une solution en particulier.

Un peu comme un exercice de mathématiques dont on aurait le résultat, mais pas le détail du calcul. Cela rend difficile l’explication des prédictions ou des classifications, mais aussi l’identification d’éventuels biais indésirables.

Par exemple, pour corriger une erreur commise par Bing Copilot ou ChatGPT (et l’empêcher de se reproduire), il faut pouvoir remonter en arrière dans le jeu de données afin de comprendre quel biais s’y est glissé…

Quelles sont les applications pratiques du deep learning ?

En dépit de ces limites et défis, le deep learning est progressivement en train de transformer le monde tel que nous le connaissons, et d’étendre ses applications à l’ensemble des secteurs et des industries.

À ce titre, le cabinet McKinsey a collecté plus de 400 cas pratiques dans 19 industries. Voici quelques exemples d’applications concrètes :

  • La reconnaissance visuelle, ou « vision par ordinateur » (l’appellation technique de cette application), consiste à analyser, puis à interpréter des images ou des vidéos. Les modèles de deep learning peuvent ainsi identifier des objets à l’intérieur de contenus vidéo ou visuels – c’est la base de la conduite autonome –, classifier des images dans différentes catégories, ou encore segmenter les images de façon à y déceler des éléments spécifiques (comme des erreurs). La vision par ordinateur est employée dans des secteurs comme l’énergie, la fabrication et l’industrie automobile, mais aussi dans le domaine de la santé pour identifier des cellules cancéreuses dans des images médicales.
  • Le traitement du langage naturel est aujourd’hui bien connu du grand public : ces modèles savent générer du texte automatiquement en fonction des prompts qui leur sont injectés. Ils peuvent aussi traduire instantanément du contenu textuel, reconnaître et transcrire des voix (c’est ce que font les enceintes intelligentes), ou encore analyser les sentiments qui se dégagent d’un texte (ce qu’on utilise beaucoup en marketing pour évaluer le degré d’émotion dans un avis client, par exemple). On s’en sert déjà dans beaucoup de domaines, notamment en marketing et en e-commerce pour mieux comprendre les demandes des consommateurs et lancer des actions personnalisées, mais également en matière de service client pour améliorer la disponibilité et augmenter la réactivité – à l’aide de chatbots.
  • L’apprentissage par renforcement (reinforcement learning) désigne les méthodes qui permettent à un programme d’apprendre à décider de manière autonome, et à choisir quelle action effectuer dans un contexte donné. Le modèle progresse selon un système de récompense/pénalité, chaque action de sa part déclenchant l’une ou l’autre, ce qui le pousse à chercher la meilleure stratégie pour maximiser les récompenses. C’est l’approche employée par les programmes ludiques capables de battre des humains (aux échecs ou au jeu de Go), en robotique pour enseigner aux robots à accomplir des tâches complexes (saisir et manipuler des objets, se déplacer…), et pour contrôler des systèmes évolués (gestion du trafic, des réseaux électriques ou des chaînes de production).
  • L’analyse prédictive est un gros morceau du deep learning : elle permet de prédire les résultats futurs en s’appuyant sur des données historiques, combinées avec d’autres technologies et processus de modélisation des informations. Les entreprises s’en servent pour déceler des tendances dans des jeux de données, et identifier les opportunités autant que les risques. Cette approche est d’ores et déjà bien implantée dans les services financiers, que ce soit pour évaluer les risques propres à un emprunteur dans le cadre d’une décision de prêt, pour élaborer des stratégies d’investissement performantes, ou encore pour pratiquer le trading algorithmique.

En conclusion, le deep learning est bien plus qu’une simple subdivision de l’intelligence artificielle : c’est un énorme pas en avant vers une révolution technologique, humaine et sociale sans précédent.

En imitant le fonctionnement du cerveau humain, ces modèles repoussent sans cesse les frontières connues de la puissance de calcul des machines et de la taille des jeux de données à analyser, laissant augurer des applications pratiques potentiellement infinies.

Nous sommes en train d’entrer dans une nouvelle ère de l’humanité, et le deep learning est sans conteste l’une des clés qui nous en ouvre la porte.

S’abonner au podcast

Recevez mes derniers podcasts directement dans votre boîte mail.

@
Abonnez-vous