Blog
Qu’est-ce que le Big Data ? Définition, fonctionnement, utilisations et défis à relever !

Qu’est-ce que le Big Data ? Définition, fonctionnement, utilisations et défis à relever !

Andréa Bensaid, Eskimoz CEO
Andréa Bensaid
18/06/24
Big Data

Le Big Data, vous connaissez certainement. L’expression fait partie de ces notions technologiques entrées dans le langage courant, et employées à tort et à travers dans les médias.

Mais savez-vous réellement ce qui se cache derrière ce terme ?

Au-delà de la référence aux données elles-mêmes, générées ou collectées en masse par les entreprises pour créer de la valeur (pensez aux grands acteurs du web comme Google, Facebook ou Amazon), il y a une dimension plus concrète à prendre en compte, ayant trait au stockage et à l’analyse des informations, puis à leur utilisation.

Alors, qu’est-ce que le Big Data, exactement ? Quelles sont ses implications ? Comment employer à bon escient ces « mégadonnées » dont le volume ne cesse d’augmenter ? Et quels sont les défis à relever autour de la data ? C’est ce que nous allons voir.

Qu’est-ce que le Big Data ? Une définition

Au sens propre, l’expression Big Data renvoie aux « grosses données » ou « mégadonnées », à savoir : le volume indicible d’informations que les êtres humains produisent au quotidien, et qu’il est impossible de traiter à l’aide des méthodes traditionnelles.

Le terme est né de la volonté de nommer ces grands ensembles, surgis de l’explosion quantitative des données numériques, mais aussi de la nécessité de leur faire subir un traitement complexe afin d’en tirer de la valeur.

Pour répondre à la question « qu’est-ce que le Big Data ? », il faut donc prendre en compte deux aspects concomitants : la quantité des données générées et les processus de traitement qui visent à les exploiter correctement.

Le Big Data, un océan de données

Attention, car les chiffres qui suivent sont difficiles à concevoir pour nos simples cerveaux humains : chaque jour, nous créons 2,5 quintillions de bytes de données. C’est-à-dire 25 suivi de 17 zéros !

Ce volume exorbitant est généré par l’ensemble de nos activités digitales, qu’il s’agisse de naviguer sur le web, d’utiliser des applications mobiles ou de communiquer via des messageries.

Lorsque vous publiez des informations sur un réseau social, que vous consultez un GPS pour vous rendre quelque part ou que vous effectuez une recherche sur Google, vous transmettez des quantités importantes de données.

Un seul exemple : Facebook ingère quotidiennement plus de 500 térabytes, générés pour l’essentiel par les échanges de messages, les commentaires, et les publications de photos ou de vidéos.

Les bases de données constituent une autre source essentielle pour le Big Data : cela concerne toutes les démarches administratives, les réponses à des questionnaires de santé, les analyses médicales, les déclarations financières ou fiscales, etc.

Enfin, plus récemment, les objets connectés sont apparus sur le devant de la scène – ce que l’on appelle « l’Internet des Objets ». Avec leurs capteurs, ceux-ci recueillent un grand nombre d’informations qui viennent alimenter les bases de données : montres (smart watches), bracelets dédiés au sport, balances, ampoules, lunettes, appareils électroménagers, thermostats, téléviseurs…

La liste ne cesse de s’allonger au fil du temps.

Toutes ces données sont collectées, stockées et soigneusement analysées par les entreprises dans le but de produire de la valeur. Et ce n’est que le début : d’ici 2025, l’humanité aura généré plus de 181 zettabytes de données (181 suivi de 21 zéros – Statista). Un internaute qui ambitionnerait de télécharger l’intégralité des données disponibles sur le web y passerait la bagatelle de 180 millions d’années !

La question du traitement des données du Big Data

Mais le Big Data ne fait pas uniquement référence à la quantité des données. D’un point de vue plus technique, l’expression renvoie aussi à un autre concept, tout aussi important : l’utilisation que l’on fait de ces informations, et plus particulièrement leur traitement.

En effet, les ensembles de données du Big Data sont tellement volumineux qu’ils ne peuvent pas être traités par des outils traditionnels, ni exploités en tant que tels. C’est pourquoi l’expression désigne, aussi, la nécessité de traiter ces informations, ainsi que les méthodes, processus et solutions qui permettent aux entreprises d’en tirer parti.

Car trouver de la valeur au sein du Big Data en revient souvent à dénicher une aiguille dans une botte de foin : c’est un processus complet qui s’appuie sur des outils efficaces, des analyses perspicaces, des utilisateurs compétents et des dirigeants capables de tirer des données brutes les données qui font sens.

La catégorisation des informations

À ce titre, il faut comprendre que les données du Big Data peuvent appartenir à plusieurs catégories : elles sont structurées, non structurées ou semi-structurées.

  • La data structurée désigne l’information ayant déjà fait l’objet d’un tri, et intégrée à des bases de données et/ou des feuilles de calcul (mais avant une représentation graphique), dans le but d’être traitée. Exemple : des transactions, des rapports statistiques, des études de marché…
  • La data non structurée renvoie à l’information qui n’a pas encore été organisée en référentiel spécifique et, ce faisant, ne correspond à aucun modèle ou format permettant d’y accéder aisément. Cela concerne notamment les données telles qu’elles sont collectées à la source – les données « brutes » qui, à l’instar du pétrole, ont besoin d’être raffinées pour être utilisées. Exemple : des documents textuels ou multimédia.
  • La data semi-structurée fait référence à l’information qui n’a pas encore été organisée, mais que des métadonnées rendent plus facile à traiter que des données brutes. Exemple : des journaux de serveurs ou des données captées par des objets connectés.

Les caractéristiques des données issues du Big Data

Les données du Big Data ont une autre particularité : elles doivent intégrer un certain nombre de caractéristiques que l’on synthétise par cinq termes en « V ».

  • Le volume (énorme) des données à traiter.
  • La variété des informations stockées dans un système, un terme qui se réfère à leur catégorie (selon qu’elles sont structurées ou non) ainsi qu’à la source dont elles sont issues.
  • La vitesse avec laquelle ces données sont créées, collectées et traitées.
  • La véracité des données, c’est-à-dire leur exactitude, leur fiabilité et leur pertinence.
  • La valeur apportée par ces données à l’entreprise.

On y ajoute parfois un sixième « V » pour désigner la variabilité, en référence à la nature changeante des informations collectées (certains ensembles de données sont moins cohérents et peuvent avoir des significations multiples, ou être formatés de manière distincte en fonction de la source) qui rend leur traitement plus complexe.

Les modes de traitement des données

Enfin, on distingue deux modes de traitement des données du Big Data, selon les besoins auxquelles celles-ci sont susceptibles de répondre :

  • Le traitement par lots, appliqué à des quantités importantes de données stockées qui nécessitent une analyse approfondie. Le but : répondre à des questions fondamentales ou élaborer des stratégies sur le long terme.
  • Le streaming de données, qui consiste à collecter des informations en grand nombre et en temps réel, et à les soumettre à une analyse rapide. Le but : obtenir des résultats instantanés, afin de répondre à des objectifs immédiats.

La puissance nécessaire pour traiter le Big Data


Par ailleurs, le volume, la variété et la vitesse des données créent des besoins spécifiques en matière d’infrastructures de stockage et de traitement.

De fait, les serveurs basiques sont rapidement pris en défaut avec un Big Data qui n’a de cesse de grandir en quantité, et qui nécessite une puissance de traitement toujours plus importante : la combinaison de plusieurs milliers de serveurs devient alors une obligation, afin de répartir efficacement les tâches.

On parle à ce propos d’ « architecture de grappe », basée le plus souvent sur des technologies dédiées.

Compte tenu des coûts engendrés par le stockage et le traitement, les entreprises se tournent massivement vers les solutions de Cloud public – dont l’essor est proportionnel à celui du Big Data.

Le recours à des infrastructures de Cloud public permet aux organisations d’étendre leur capacité de stockage avec un maximum de flexibilité, en fonction de l’évolution de leurs besoins.

Que peut-on faire avec le Big Data ?

Jusqu’à présent, nous avons surtout évoqué des problématiques techniques. Mais une question se pose : concrètement, à quoi sert le Big Data ? À quoi les entreprises peuvent-elles employer ces volumes exponentiels d’informations ?

Les usages professionnels du Big Data sont aussi nombreux que prometteurs. Les entreprises peuvent s’en servir pour développer de nouveaux produits ou services, se donner un avantage compétitif, prendre des décisions stratégiques plus pertinentes et éclairées (en s’appuyant sur des informations fiables), lancer des campagnes marketing personnalisées (en tenant compte des préférences de leurs prospects et clients), etc.

Voyons quelques exemples plus en détail :

  • Le développement de produits ou de services innovants, grâce aux modèles prédictifs qui permettent d’anticiper les besoins des consommateurs. Ces modèles donnent l’occasion à Netflix de faire des suggestions à ses abonnés, ou à Procter & Gamble de concevoir de nouveaux produits en se basant sur les informations issues de groupes cibles. Cela augmente l’engagement et, par corollaire, le taux de conversion.
  • L’amélioration de l’expérience client, en ayant une vue d’ensemble plus précise des besoins, attentes et caractéristiques des consommateurs. Le Big Data combine les données issues de sources multiples, comme les formulaires, les comportements de navigation sur le web, les réseaux sociaux, les appels téléphoniques et autres, afin d’aider les entreprises à proposer des expériences toujours plus personnalisées et qualitatives.
  • L’optimisation de l’efficacité des processus internes et des coûts. Différentes méthodes peuvent être utilisées pour y parvenir, comme l’analyse de l’efficacité opérationnelle, l’automatisation des processus, l’amélioration des chaînes logistiques, ou encore la maintenance prédictive (le fait de prédire les défaillances mécaniques ou techniques potentielles, afin de mieux les prévenir).
  • La précision des diagnostics dans le domaine médical. C’est l’une des promesses les plus étonnantes faites par le Big Data : la possibilité d’améliorer grandement la précision des diagnostics, en particulier grâce à l’exploitation des données des patients et aux informations tirées de l’analyse d’imagerie par l’intelligence artificielle.
  • La gestion des risques dans des secteurs clés comme l’énergie, la finance, la banque ou l’assurance. Analysées de manière cohérente, les données permettent à la fois de prévenir les fraudes et les violations de sécurité, de réduire les risques, et de protéger les consommateurs.

Quels sont les principaux défis du Big Data ?

Bien sûr, le Big Data ne revêt pas seulement des avantages : l’augmentation exponentielle du volume de données s’accompagne également d’un grand nombre de contraintes, et nous met face à des défis majeurs. Voici les trois principaux.

  • Le défi du stockage. De par ses dimensions, le Big Data engendre des contraintes importantes en matière de stockage : à la fois pour des questions d’hébergement physique (la nécessité de créer de nouveaux datacenters en permanence pour absorber la création de données au niveau planétaire – sachant que le volume double à peu près tous les deux ans !), mais aussi en termes de variété des formats et des catégories. La conception d’une architecture spécifique, adaptée aux besoins de l’entreprise – sur un Cloud public, privé ou hybride – fait partie des réponses les plus pertinentes à ce problème.
  • Le défi du traitement. Pour être exploitées, les données du Big Data doivent d’abord être traitées, et faire l’objet d’une analyse significative, chronophage autant que complexe. Les professionnels de la donnée (data scientists, data analysts…) consacrent environ 70 à 80 % de leur temps à l’organisation et à la préparation des informations, avant leur transmission aux personnes compétentes sous la forme de représentations graphiques – ce que l’on appelle la data visualization, ou dataviz.
  • Le défi de l’exploitation. « Trop de données tuent la donnée » : cette formule sied particulièrement bien au Big Data, dont le principal risque est la saturation d’informations. En ce sens, l’exploitation des données passe forcément par la mise en place de processus adaptés aux besoins de l’entreprise, en particulier le Smart Data – dont l’objectif est de rendre les données plus « intelligentes » et immédiatement utilisables.

Contrairement à ce que son utilisation décousue dans les médias peut laisser à penser, le Big Data n’est pas une mode passagère, ni un buzzword promis à un oubli rapide.

Prise dans son sens technique, l’expression renvoie à la nécessité de collecter et de stocker les données importantes pour l’entreprise, mais aussi au besoin de leur faire subir un traitement efficient, afin d’en tirer des informations à forte valeur ajoutée.

C’est là que les « grosses données » prennent tout leur sens !

S’abonner au podcast

Recevez mes derniers podcasts directement dans votre boîte mail.

@
Abonnez-vous