Les 3 V du big data (vraiment big)

OLIVIER MÉGEANpar OLIVIER MÉGEAN

La donnée est la matière première des solutions d’IA. Mais de quels ordres de grandeur parle-t-on exactement ?

La donnée est la matière première essentielle au développement des solutions d’intelligence artificielle. Mais de quoi parle-t-on exactement ? Quels ordres de grandeur ?

On a l’habitude de caractériser le « Big Data » par les trois V : Volume, Vélocité (fréquence et rapidité de transmission) et Variété (différents types de données).

Le Volume tout d’abord. Il croit de manière exponentielle.

En 2018, on estime que 1,75 million de Gigaoctet sont créés chaque minute (de quoi saturer la mémoire de près de 30 millions d’iPhone X – 64). 90% de l’ensemble des données disponibles dans le monde ont été créées au cours deux dernières années. Les 3,8 milliards d’internautes ne cessent d’accélérer le mouvement.

Heureusement, le coût du stockage d’information a considérablement diminué. En 1956, le stockage d’un gigaoctet coûtait l’équivalent de 56 millions d’euros. 60 ans plus tard, il ne coûte plus que 5 centimes d’euros.

La Vélocité ensuite. Toujours plus souvent, toujours plus vite.

En 1992, 100 gigaoctets s’échangeaient chaque jour dans le monde. En 2020, les estimations nous annoncent 50 000 gigaoctets par seconde !

Toutes les minutes les utilisateurs de Netflix « streament » l’équivalent de 69 444 heures de vidéos.

Enfin, la Variété des données.

Comme de meilleurs exemples valent mieux qu’un long discours, voici quelques chiffres :

Chaque minute :

456 000 tweets sont envoyés ;
4 146 600 vidéos sont regardées ;
3,6 millions de recherches sont effectuées sur Google.

En une année, les expérimentations sur le Large Hadron Collider (LHC) générent 1 milliard de téraoctets de données.

Les objets connectés seront au nombre de 50 milliards environ à l’horizon 2024.

On se rend bien compte que les ordres de grandeurs sont de plus en plus complexes (voire impossibles) à appréhender.

Ici, on parle de zetaoctets (10²¹ octets), une unité de mesure utilisée aujourd’hui quantifier les données disponibles.

On retrouve les mêmes ordres de grandeurs quand on compte les étoiles de l’univers par exemple. Il y en aurait 300 sextillions (10²¹).

Tout ceci pour illustrer le fait que l’exploitation de cette gigantesque masse de données n’est possible qu’avec des supercalculateurs et du machine learning.

A l’échelle de l’entreprise, l’intégration de solutions d’intelligence artificielle devient de plus en plus indispensable afin de traiter la masse considérable de données générées par son environnement et en exploiter tout le potentiel.

Et puis, je vois mal comment on rentrerait tout cela dans un tableur XLS.

Sources : CEA, INRIA, Planetoscope, Data never sleep.

NEWSLETTER

Votre briefing sur les tendances principales, menaces et opportunités, ainsi que les outils de l’intelligence artificielle.

VOIR LA DERNIÈRE NEWSLETTER »

Intégrez l’intelligence artificielle dans votre entreprise

demain.ai offre une gamme de services permettant à toutes les entreprises de saisir les opportunités business de l’IA.

Séminaires de formation, diagnostic IA des données, identification et analyse de cas d’usages, réalisation concrète d’un P.O.C., mise en production, nos équipes peuvent vous accompagner dans chacune des étapes de l’intégration concrète de l’intelligence artificielle.

L'EQUIPE DEMAIN.AI »