L’auteur est un analyste technologique

La technologie regorge de récits, mais l’un des plus bruyants et des plus persistants concerne l’intelligence artificielle et ce qu’on appelle les « données ».

L’IA est l’avenir, nous dit-on, et tout est question de données – et les données sont l’avenir, et nous devrions en être propriétaires et peut-être être payés pour cela. Et les pays ont également besoin de stratégies de données et de souveraineté des données. Les données sont le nouveau pétrole.

C’est surtout un non-sens. Les « données » n’existent pas, elles ne valent rien et ne vous appartiennent pas de toute façon.

De toute évidence, les données ne sont pas une chose, mais d’innombrables collections d’informations différentes, chacune d’entre elles spécifique à une application particulière, qui ne peuvent être utilisées pour autre chose.

Par exemple, Siemens a la télémétrie des éoliennes et Transport for London a des balayages de billets, et ceux-ci ne sont pas interchangeables. Vous ne pouvez pas utiliser la télémétrie de la turbine pour planifier un nouvel itinéraire de bus, et si vous fournissez les deux ensembles de données à Google ou Tencent, cela ne les aiderait pas à créer un meilleur système de reconnaissance d’image.

Cela peut sembler trivial, dit sans ambages, mais cela montre l’inutilité d’affirmations très courantes du type « La Chine a plus de données » – plus de quelles données ? Meituan livre 50 minutes de commandes de restaurant par jour, ce qui lui permet de créer un algorithme de routage plus efficace, mais vous ne pouvez pas l’utiliser pour un système de guidage de missile. Vous ne pouvez même pas l’utiliser pour construire un restaurant à Londres. Les « données » n’existent pas – il existe simplement de nombreux ensembles de données.

Bien sûr, lorsque les gens parlent de données, ils entendent principalement «vos» données – vos informations et les choses que vous faites sur Internet, dont certaines sont filtrées, agrégées et déployées par des entreprises technologiques. Nous voulons davantage de contrôles de confidentialité, mais nous pensons également que nous devrions être propriétaires de ces données, où qu’elles se trouvent.

Le problème est que la majeure partie de la signification de «vos» données n’est pas en vous mais dans toutes les interactions avec d’autres personnes. Ce que vous publiez sur Instagram signifie très peu : le signal est dans qui a aimé vos publications et ce qu’ils ont aimé d’autre, dans ce que vous avez aimé et qui d’autre l’a aimé, et dans qui vous suit, qui d’autre ils suivent et qui les suit, etc. vers l’extérieur dans un maillage d’interactions entre des millions de personnes.

Si j’aime votre image, ce ne sont pas « mes » données ou « vos » données seules, et cela ne vaut rien sans ce contexte. Vous ne pouvez pas l’emporter avec vous car vous ne le possédez pas vraiment, et même si vous le possédiez, vous ne pourriez pas le brancher sur TikTok, car TikTok a un maillage complètement différent.

Cela a incité mon ami, le gourou de la technologie Tim O’Reilly, à dire : « Les données ne sont pas le nouveau pétrole. C’est du sable. Les données n’ont de valeur que dans l’ensemble des millions. En effet, cela peut être vrai même sur une simple base de flux de trésorerie. Par exemple, au premier trimestre 2022, Meta n’a généré que 99 cents de flux de trésorerie disponible par utilisateur actif quotidien et par mois.

Cela s’applique même aux données pour lesquelles vous pouvez dire de manière significative qu’elles vous appartiennent. Votre consommation d’électricité ne concerne pas les autres, mais elle n’a pas de valeur en soi, seulement dans l’ensemble de toute la consommation d’électricité domestique dans le sud de Londres ou de Brooklyn, ou ailleurs. Et, encore une fois, les données ne sont pas fongibles – un service public d’électricité a besoin de ces données, mais cela ne sert à rien à LinkedIn.

En effet, pour beaucoup de ces systèmes, la valeur n’est pas du tout dans les données mais dans le flux d’activité qui les entoure – la signification n’est pas dans l’image ou la vidéo que vous publiez mais dans la façon dont le réseau y réagit demain. Vous pourriez voir TikTok ou PageRank comme de vastes « Turcs mécaniques » – nous n’avons pas encore d’IA capable de comprendre ce que chaque page, image ou vidéo est en elle-même, et nous avons donc besoin d’humains, de nous tous, dans la boucle quelque part, à la bon point de levier, aimer, lier, cliquer et regarder. Ce sont des systèmes, pas des données, et la valeur est dans le flux.

Nous sommes déjà venus ici : l’IA d’aujourd’hui ressemble beaucoup aux bases de données des années 1980. Les deux technologies transforment ce que nous pouvons faire avec l’information et les questions que nous pouvons poser, et comment les organisations peuvent fonctionner.

Lorsque les bases de données étaient nouvelles, nous nous inquiétions, tout comme nous le faisons maintenant à propos de l’IA. Certaines de ces inquiétudes étaient réelles, mais personne aujourd’hui ne demande si l’Amérique a plus de bases de données, ou s’il est important que SAP soit allemand. Personne à Davos ne parle de « colonialisme SQL ».

Ces technologies ne sont pas des atouts stratégiques, tout le monde peut les avoir, mais pour quoi faire ? Les bases de données ont permis des chaînes d’approvisionnement juste à temps, et Walmart, et ont permis à Apple de fabriquer des iPhones en Chine – ce sont les questions stratégiques. Il en va de même pour l’IA et les données. Ce n’est pas la nouvelle huile, juste plus de logiciel. La vraie question est de savoir ce que vous construisez avec.



ttn-fr-56