L’intelligence artificielle se nourrit de vraies et de fausses données

GAETAN FRONpar GAETAN FRON

Quelles sont les données nécessaires pour initier des projets basés sur le machine-learning ?

Au coeur des progrès actuels de l’intelligence artificielle, le deep-learning pourrait certainement concourir au statut de technologie majeure de la décennie.

Basé sur des réseaux neuronaux synthétiques, il s’appuie sur un ensemble de facteurs :

  • collecte massive de données;
  • disponibilité élastique de la puissance de calcul et du stockage;
  • recherche académique open-source;

qui créent les conditions d’un développement soutenu de cas d’usage variés : traitement du langage, vision machine, classification, détection d’anomalies…

La pertinence d’une intelligence artificielle basée sur le deep-learning est liée intrinsèquement au volume des données en entrée

Dans la mise en oeuvre d’applications basées sur le deep-learning, tout débute par une phase d’apprentissage où le modèle est « entraîné » en s’appuyant sur des jeux de données conséquents. Dans le domaine juridique, par exemple, on estime qu’un fonds documentaire d’un million de contrats est nécessaire à l’entraînement d’une IA.

La collecte de données est ainsi au coeur d’une guerre économique sans merci entre les géants de l’internet US et Chinois (GAFAMI, BATX)  et où, malheureusement, l’Europe est pour l’instant très en retard. Dans la reconnaissance d’image, il apparaît assez clairement qu’il est illusoire de chercher à concurrencer Google ou Facebook. Ce dernier intégrant quotidiennement plus de 900 millions de photos contribuées par les membres du réseau social.

Pour autant, nous n’en sommes qu’au début de l’histoire. Les champs d’application du deep-learning sont vastes et, pour les entreprises, chaque cas d’usage est particulier.

Les différentes solutions possibles pour une entreprise non-GAFAMI

Tout le monde n’est pas Google mais toute entreprise est concernée par l’intelligence artificielle. Alors, comment faire lorsque que l’on souhaite construire une solution d’IA basée sur le deep-learning ?

il faut associer différents types de données :

  • données internes issues d’un CRM, d’une DMP, de logs…;
  • données internes issues de capteurs  : beacons, IOT…;
  • données externes issues de jeux de données disponibles en open-source;
  • fausses données.

Attardons nous sur cette dernière famille de données. Si les données recherchées ne sont pas disponibles a priori, il est envisageable, dans un certain nombre de cas, de les fabriquer.

Un premier axe est de s’appuyer sur des données existantes et de créer par imitation des données supplémentaires. Les données générées ne sont pas réelles mais sont suffisamment proches de la réalité pour permettre d’entraîner convenablement une IA. L’idée sous-jacente est d’augmenter le volume de données en conservant une pertinence acceptable.

Un second axe est de créer des données de toute pièce. La start-up estonienne Neuromation produit par exemple des millions d’images de rayonnages de supermarchés présentant de multiples combinaisons de produits. La collecte physique de ce type d’images étant beaucoup plus compliquée, lente et coûteuse.

Ainsi, il n’existe pas de fatalité sur l’avancée prise par les GAFAs et leurs équivalents chinois. Il appartient à chaque entreprise souhaitant se saisir des opportunités offertes par l’IA et le deep-learning d’adopter une approche créative et ouverte au champ des possibles.

Pour autant, aucune ne fera l’économie d’une gouvernance performante des données pour travailler sur les challenges induits par l’IA, notamment les biais algorithmiques ou encore les sujet liés à la cybersécurité.

NEWSLETTER

Votre briefing sur les tendances principales, menaces et opportunités, ainsi que les outils de l’intelligence artificielle.

VOIR LA DERNIÈRE NEWSLETTER »

Intégrez l’intelligence artificielle dans votre entreprise

demain.ai offre une gamme de services permettant à toutes les entreprises de saisir les opportunités business de l’IA.

Séminaires de formation, diagnostic IA des données, identification et analyse de cas d’usages, réalisation concrète d’un P.O.C., mise en production, nos équipes peuvent vous accompagner dans chacune des étapes de l’intégration concrète de l’intelligence artificielle.

L'EQUIPE DEMAIN.AI »