Blockchain et IA : Des synergies sur toute la chaîne de valeur de l’IA
Souscrivez à notre abonnement smart pour lire ce rapport en entier
En 2024, au niveau mondial, près de 85% des dirigeants de société prévoient d’augmenter leurs investissements dans l’IA. L’heure est principalement à l’identification et à la mise en œuvre de cas d’usage, motivés notamment par la recherche d’économies et de gains de productivité. Cependant, des questions structurelles émergent, qu’il conviendra à terme d’adresser : qu’en est-il de la confidentialité et de la protection des données utilisées notamment pour l’entraînement ? Comment prévenir la centralisation des pouvoirs auprès des géants de la tech, bien souvent américains ? Comment rendre plus abordable l’entraînement de modèles ? Autant de problématiques pour lesquelles les technologies décentralisées peuvent apporter des réponses.
Ainsi, à la suite de la présentation des principaux éléments de la chaîne de valeur de l’IA, nous allons explorer les synergies entre blockchain et IA.
Quelle est la chaîne de valeur de l’IA ?
Cette chaîne de valeur débute par le hardware, nécessaire pour fournir la puissance de calcul, suivi des données qui doivent être collectées et stockées, puis la brique algorithmique qui entraîne les intelligences artificielles et les met à disposition des utilisateurs. Enfin, nous trouvons les applications qui utilisent ces modèles.
Classés en fonction de cette chaîne de valeur, voici quelques cas d’usage, en débutant par le niveau applicatif :
APPLICATIVE - Protection des droits d'auteur pour les contenus créés par intelligence artificielle générative
L’avènement de l’IA générative pose de multiples interrogations sur la propriété intellectuelle : comment les auteurs d’œuvres utilisées pour entraîner les modèles peuvent-ils faire valoir leurs droits ? Qu’en est-il des droits d’auteur sur une œuvre générée par l'IA générative ? Si une création d’IA enfreint le droit d’auteur d’une œuvre, qui est responsable ?
Si les réponses juridiques à ces questions sont à ce jour encore floues, les technologies blockchain pourraient cependant apporter des moyens techniques puissants afin de tracer les données de développement et d’entraînement des IA génératives, permettant aux auteurs de faire valoir leurs droits. On peut également facilement envisager de pouvoir tracer sur la blockchain les créations générées par l'IA afin d’en faire valoir les droits d’auteur à tous les acteurs de la chaîne.
Story Protocol est un exemple d’initiative essayant de répondre à ces problématiques. Il se présente comme un “programmable IP layer” (une couche de propriété intellectuelle programmable) que les créateurs pourraient utiliser pour tracer l’utilisation de leur œuvre ainsi s’assurer de percevoir les droits d’auteurs. Il est actuellement en phase de bêta test sur le testnet Sepolia d’Ethereum.
APPLICATIVE - Infrastructure décentralisée d’agents autonomes
Les agents autonomes en intelligence artificielle (IA) sont des entités logicielles ou matérielles dotées d'une certaine autonomie et capables d'agir dans un environnement donné pour atteindre des objectifs spécifiques. Ils sont conçus pour exécuter des tâches de manière autonome, en s'adaptant aux changements de leur environnement et en apprenant de leurs expériences.
Voici quelques exemples d’agent autonome : les véhicules autonomes (voiture, drone.), des robots (de fabrication ou d’entrepôt), des agents de service client tels certains chatbots utilisés sur des sites web.
Le marché des agents autonomes est en plein essor, enregistrant un fort taux de croissance. Les sociétés comme Meta, Open AI avec leurs agents Meta AI et GPT sont des acteurs majeurs. C’est donc un marché fortement centralisé et à grande dominance américaine.
C’est pourquoi il est pertinent de s’intéresser aux possibilités d’infrastructures décentralisées pour la construction de ces agents. C’est par exemple ce que propose le protocole Fetch.AI dont voici les principales caractéristiques :
- Économie numérique intégrée : Fetch.ai intègre une économie de tokens (FET) qui incite les agents créés sur sa plateforme à fournir des services utiles et à contribuer au réseau, créant un écosystème d'agents autonomes économiquement viables.
- Décentralisation et sécurité : Fetch.ai utilise la technologie blockchain, ce qui permet une infrastructure décentralisée et sécurisée pour les agents autonomes. Cela les rend plus résistants aux pannes, aux attaques et au contrôle centralisé.
- Protection des données : Grâce à l'utilisation de la blockchain et de technologies avancées de cryptographie, Fetch.AI assure que les interactions et transactions entre agents sont sécurisées et que les données sensibles restent confidentielles.
- Réduction des coûts : En permettant aux agents d'interagir directement sans intermédiaires, Fetch.AI réduit les coûts associés aux transactions et aux services. La plateforme crée un environnement de marché ouvert où les services peuvent être négociés au meilleur prix, stimulant ainsi l'efficacité et l'innovation
Il faut cependant noter qu’à date, les solutions de type Fetch.AI ont encore du chemin à parcourir notamment afin d’être réellement scalables et interopérables.
Suite à ces deux exemples de cas d’usage au niveau applicatif, passons au niveau algorithmique.
ALGORITHM – Décentralisation de l’apprentissage automatique
L'apprentissage des modèles d'intelligence artificielle (IA) est un processus par lequel un modèle informatique apprend à partir de données pour accomplir des tâches spécifiques comme la reconnaissance d'images, la compréhension du langage naturel ou la prédiction de tendances.
Ces processus d’apprentissage sont extrêmement onéreux, ainsi Gemini Ultra de Google aurait coûté près de 191 millions de dollars à l’entraînement et GPT-4 d’OpenAI, aurait coûté 78 millions de dollars. Ces coûts exorbitants sont une importante barrière à l’entrée pour des acteurs plus modestes.
La décentralisation de l’apprentissage permise par les technologies blockchain permet donc de réduire les coûts d’entraînement et ainsi d’ouvrir à une plus large gamme d’acteurs la possibilité de développer leurs modèles.
C’est notamment ce que propose le protocole Bittensor. Bittensor à travers sa plateforme décentralisée et son jeton numérique le TAO, permet aux développeurs et aux data scientists de collaborer de manière sécurisée et transparente sur l’apprentissage et l’entraînement des modèles d’IA tout en utilisant les principes de l’économie décentralisée. Les acteurs du réseau sont récompensés en TAO pour leur implication/contribution. De plus toutes les IA du réseau peuvent utiliser des données mises à leur disposition.
A des fins d’optimisation des ressources, pour obtenir des performances optimales, pour sécuriser ainsi que pour rester flexible et scalable, le réseau Bittensor est divisé en “subnets” spécialisés dans une catégorie particulière de tâches d’IA, telles que la génération de texte, la reconnaissance d’image. La propriété ainsi que la gouvernance de ces subnets sont décentralisées, permettant une collaboration ouverte. Après ce cas d’usage majeur au niveau algorithmique, passons au niveau des données.
DATA - Marchés de données décentralisés
Les données sont la clé de voute de tous les systèmes d’intelligence artificielle. La précision et la performance des algorithmes découlent de la quantité et de la qualité des données sur lesquelles ils ont été entrainés. Par exemple, le modèle GPT-3 d’OpenAI, a été entraîné avec un ensemble de données contenant des centaines de milliards de mots. En 2022, le marché mondial des données d’entraînement pour l’IA était évalué à 1,62 milliard de dollars.
Nous sommes cependant face à un paradoxe, car si ces algorithmes ont besoin d’une grande quantité de données, une prise de conscience généralisée sur la confidentialité est en marche, d’où l’avènement du web3. Ceci fait suite à de nombreux scandales dans le web2 – Cambridge Analytica, ou plus récemment Linkedin Data Breach en 2021 impactant plus de 700 millions d’utilisateurs.
Le sujet du sourcing de données d’entraînement doit donc être traité avec une grande prudence. Et c’est ainsi que la technologie blockchain est vecteur de valeur notamment en proposant des marchés de données décentralisés permettant aussi bien aux entreprises, aux gouvernements qu’aux particuliers de partager et de valoriser leurs données tout en protégeant leur propriété.
C’est notamment ce que propose Ocean Protocol, à travers trois mécanismes :
- Les Data Tokens : Ocean Protocol permet aux propriétaires de données de tokeniser leurs actifs de données sous forme de Data Tokens. Ces tokens représentent la propriété sur les ensembles de données et peuvent être échangés ou vendus sur le marché d’Ocean Protocol.
- Ocean Market : marketplace décentralisée développée par Ocean Protocol, qui permet aux utilisateurs fournisseurs de données de publier des ensembles de données sous forme de Data Tokens représentant soit la propriété soit l’accès à des données spécifiques. Les utilisateurs consommateurs de données peuvent ensuite rechercher et acheter si besoin les données qui correspondent à leurs besoins.
- Compute-to-data : Grâce à la technologie Compute-to-Data d'Ocean Protocol, les utilisateurs peuvent analyser et utiliser les données sans avoir à les sortir de leur environnement sécurisé. Cela minimise les risques de violation de la confidentialité des données.
Les avantages de la marketplace d’Ocean Protocol, de son système de Data Tokens et de compute-to-data sont les suivants :
- Protection de la vie privée et sécurisation des données : via le système de Compute-to-data sur la plateforme
- Pricing dynamique : La plateforme utilise un mécanisme de tarification dynamique basé sur l'offre et la demande. Les prix des Data Tokens peuvent varier en fonction de la quantité achetée et de la fréquence d'utilisation des données.
- Accès transparent et sécurisé : Toutes les transactions sur Ocean Market sont enregistrées sur la blockchain, ce qui garantit la transparence et la sécurité. Les utilisateurs peuvent vérifier l'historique complet des transactions et l'authenticité des Data Tokens.
- Interopérabilité : Ocean Market est conçu pour être interopérable avec d'autres services de blockchain et d'IA, facilitant l'intégration et l'utilisation des données achetées dans diverses applications et plateformes.
Cependant, les acteurs du marché des données décentralisées sont confrontés à des défis considérables en cherchant à concurrencer des géants tels que AWS Data Exchange, Databricks ou Google Cloud Platform. Leur forte empreinte sur le marché et les habitudes des utilisateurs de recourir à des plateformes centralisées, maintenues par des entreprises bien établies, rendent le passage à une marketplace décentralisée de plus petite taille complexe, surtout en raison de la complexité perçue de la blockchain.
DATA – Stockage de données décentralisé
Le développement de l'IA et du machine learning stimule fortement la demande en solutions de stockage de données massives, car ces technologies nécessitent d'énormes quantités de données pour l'entraînement des modèles. Ainsi, le marché du stockage de nouvelle génération, qui inclut les solutions de stockage pour l'IA, devrait atteindre 95,13 milliards USD d'ici 2029, avec un TCAC (Taux de Croissance Annuel Composé) de 7,37% sur la période 2024-2029.
Le marché est actuellement détenu par des acteurs tels que AWS, Microsoft Azure, ou Google Cloud Platform. Cette centralisation d’acteurs massifs peut poser plusieurs problématiques :
- Contrôle et surveillance des données entraînant des préoccupations en matière de confidentialité et de surveillance, surtout si les entreprises ou les gouvernements exploitent ces données à des fins non éthiques ou sans le consentement explicite des utilisateurs.
- Coût : La gestion et l'entretien des centres de données centralisés peuvent être très coûteux. Ces coûts incluent non seulement l'infrastructure physique et le matériel, mais aussi la consommation d'énergie, le refroidissement et la maintenance technique. Ces coûts élevés peuvent être répercutés sur les utilisateurs sous forme de tarifs plus élevés pour le stockage et l'accès aux données.
- Problèmes de performance et de latence : Les centres de données centralisés peuvent également souffrir de problèmes de latence, particulièrement lorsque les utilisateurs qui accèdent aux données se trouvent géographiquement éloignés du centre de données. Cela peut ralentir l'accès aux données et diminuer la réactivité des applications.
En réponse à ces acteurs centralisés, des initiatives de stockage décentralisées telles que Filecoin s’attaquent au marché et propose des solutions novatrices pour le stockage de données qui reposent sur des infrastructures de stockage décentralisées. Les propositions de valeur de ces stockages décentralisés sont :
- sécurité et fiabilité : Ces solutions intègrent des protocoles de cryptographie avancée pour garantir que les données restent sécurisées et privées, offrant ainsi une tranquillité d'esprit pour les utilisateurs concernés par la confidentialité de leurs informations. De plus, les données sont distribuées à travers un large réseau plutôt que concentrées dans quelques centres de données. Cette distribution aide à se prémunir contre les pertes de données et les interruptions de service
- coûts compétitifs : en permettant aux individus de louer leur espace de stockage inutilisé et en proposant un marché hypercompétitif, les coûts sont tirés vers le bas
- vitesses d'accès améliorées grâce à la proximité géographique des serveurs avec les utilisateurs finaux.
Tout comme pour le marché des données décentralisées, les acteurs du stockage décentralisé se frottent à une concurrence de taille et à des habitudes d’usage désormais bien ancrées.
Passons enfin au niveau matériel avec la brique hardware.
HARDWARE – Puissance de calcul décentralisée
La puissance de calcul est la capacité d'un système informatique à effectuer un nombre donné de calculs par seconde. Elle est essentielle pour les applications nécessitant d'importants traitements de données, comme l'intelligence artificielle (IA).
Son marché était évalué à 45,7 milliards USD en 2023 et devrait atteindre 81,3 milliards USD d'ici 2032. À titre d’exemple, en avril 2023, le coût d’exécution pour une journée de ChatGPT était estimé à 700 000 dollars.
Le marché de la puissance de calcul, tout comme celui du stockage de données, est grandement centralisé. Ce qui conduit à des problématiques de contrôle et de surveillance, ainsi que des situations monopolistiques notamment sur les tarifications proposées aux utilisateurs.
C’est pourquoi des acteurs tels que iExec, Golem ou Render (spécialisé dans les contenus 3D) proposent des marketplaces de puissance de calcul décentralisées. Ces marketplaces basées sur blockchain permettent à quiconque de vendre et d’acheter de la puissance de calcul.
Comme nous avons pu le voir à travers cette liste non exhaustive, la blockchain trouve des cas d’application pertinents sur toute la chaîne de valeur de l’IA, donnant notamment des pistes pour décentraliser l’écosystème existant. Il faut cependant garder à l’esprit que nous en sommes aux balbutiements de ces travaux et que la route est malheureusement encore longue avant d’arriver à concurrencer les leaders centralisés du marché. Il faut également rester prudent avant d’investir dans des projets Blockchain x IA car de nombreux acteurs profitent actuellement de l'engouement pour l’IA pour lancer des projets douteux.