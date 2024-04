INSIGHT-La course clandestine des grandes entreprises technologiques pour l'achat de données d'entraînement à l'IA

((Traduction automatisée par Reuters, veuillez consulter la clause de non-responsabilité https://bit.ly/rtrsauto)) par Katie Paul et Anna Tong

À son apogée, au début des années 2000, Photobucket était le premier site d'hébergement d'images au monde. Véritable colonne vertébrale de services autrefois en vogue comme Myspace et Friendster, il comptait 70 millions d'utilisateurs et représentait près de la moitié du marché américain de la photo en ligne.

Aujourd'hui, seuls 2 millions de personnes utilisent encore Photobucket, selon l'outil de suivi analytique Similarweb. Mais la révolution de l'IA générative pourrait lui donner un nouveau souffle.

Le directeur général Ted Leonard, qui dirige l'entreprise de 40 personnes à Edwards, dans le Colorado, a déclaré à Reuters qu'il était en pourparlers avec plusieurs entreprises technologiques pour obtenir une licence sur les 13 milliards de photos et de vidéos de Photobucket afin de les utiliser pour former des modèles d'IA générative capables de produire de nouveaux contenus en réponse à des invites textuelles.

Il a discuté de tarifs compris entre 5 cents et 1 dollar par photo et plus de 1 dollar par vidéo, a-t-il déclaré, les prix variant considérablement en fonction de l'acheteur et des types d'images recherchés.

nous avons discuté avec des entreprises qui nous ont dit "il nous en faut beaucoup plus", a ajouté M. Leonard. Un acheteur lui a dit qu'il voulait plus d'un milliard de vidéos, soit plus que ce que sa plateforme possède.

"On se gratte la tête et on se demande où l'on peut trouver cela

Photobucket a refusé d'identifier ses acheteurs potentiels, invoquant la confidentialité commerciale. Les négociations en cours, qui n'ont pas été rapportées précédemment, suggèrent que l'entreprise pourrait être assise sur des milliards de dollars de contenu et donnent un ENQUÊTE d'un marché de données animé qui émerge dans la course à la domination de la technologie de l'IA générative.

Les géants de la technologie comme Google GOOGL.O , Meta

META.O et OpenAI MSFT.O , soutenu par Microsoft, ont d'abord utilisé des quantités de données extraites gratuitement d'Internet pour former des modèles d'IA générative tels que ChatGPT, capables d'imiter la créativité humaine. L'entreprise a déclaré que cette pratique était à la fois légale et éthique, bien qu'elle fasse l'objet de poursuites judiciaires de la part d'une série de détenteurs de droits d'auteur.

Dans le même temps, ces entreprises technologiques paient discrètement pour des contenus enfermés derrière des paywalls et des écrans de connexion, ce qui donne lieu à un commerce caché de tout, des journaux de chat aux photos personnelles oubliées depuis longtemps dans des applications de médias sociaux délavées.

"On assiste actuellement à une ruée vers les détenteurs de droits d'auteur qui possèdent des collections privées de contenus qui ne peuvent pas être récupérés", a déclaré Edward Klaris, du cabinet d'avocats Klaris Law, qui dit conseiller les propriétaires de contenus dans le cadre d'accords d'une valeur de plusieurs dizaines de millions de dollars chacun pour l'octroi de licences sur des archives de photos, de films et de livres pour l'entraînement à l'IA.

Reuters s'est entretenu avec plus de 30 personnes ayant connaissance des transactions de données d'IA, y compris des cadres actuels et anciens des entreprises concernées, des avocats et des consultants, afin de fournir la première exploration approfondie de ce marché naissant - distributeur les types de contenu achetés, les prix qui se matérialisent, ainsi que les préoccupations émergentes concernant le risque que les données personnelles se retrouvent dans les modèles d'IA sans que les personnes en soient informées ou sans leur consentement explicite.

OpenAI, Google, Meta, Microsoft, Apple et Amazon ont tous refusé de commenter les accords et les discussions sur les données spécifiques pour cet article, bien que Microsoft et Google aient renvoyé Reuters aux codes de conduite des fournisseurs qui comprennent des dispositions sur la confidentialité des données.

Google a ajouté qu'il "prendrait des mesures immédiates, pouvant aller jusqu'à la résiliation" de son accord avec un fournisseur s'il découvrait une violation.

De nombreux grands cabinets d'études de marché affirment qu'ils n'ont même pas commencé à estimer la taille du marché opaque des données d'IA, où les entreprises ne divulguent souvent pas leurs accords. Les chercheurs qui le font, comme Business Research Insights, estiment le marché à environ 2,5 milliards de dollars aujourd'hui et prévoient qu'il pourrait atteindre près de 30 milliards de dollars d'ici dix ans.

LA RUÉE VERS L'OR DES DONNÉES GÉNÉRATIVES

Cette ruée sur les données intervient alors que les fabricants de grands modèles de base d'IA générative sont de plus en plus contraints de tenir compte des quantités massives de contenu qu'ils introduisent dans leurs systèmes, un processus connu sous le nom d'"entraînement" qui nécessite une puissance de calcul intensive et prend souvent des mois.

Les entreprises technologiques affirment que le coût de la technologie serait prohibitif si elles ne pouvaient pas utiliser de vastes archives de données de pages web grattées gratuites, telles que celles fournies par le référentiel à but non lucratif Common Crawl, qu'elles décrivent comme étant "accessibles au public"

Leur approche a néanmoins suscité une vague de poursuites en matière de droits d'auteur () et de pressions réglementaires (), tout en incitant les éditeurs à ajouter un code à leurs sites internet() afin de bloquer le scraping.

En réponse, les fabricants de modèles d'IA ont commencé à couvrir les risques et à sécuriser les chaînes d'approvisionnement en données, à la fois par des accords avec les propriétaires de contenu et par l'intermédiaire d'une industrie florissante de courtiers en données qui a surgi pour satisfaire la demande.

Dans les mois qui ont suivi le lancement de ChatGPT fin 2022, par exemple, des entreprises comme Meta, Google, Amazon et Apple ont toutes conclu des accords avec le fournisseur d'images Shutterstock pour utiliser des centaines de millions d'images, de vidéos et de fichiers musicaux de sa bibliothèque à des fins de formation, selon une personne au fait de ces accords.

Les accords conclus avec les grandes entreprises technologiques se situaient initialement entre 25 et 50 millions de dollars chacun, mais la plupart ont été élargis par la suite, a déclaré Jarrod Yahes, directeur financier de Shutterstock, à l'agence Reuters. Des acteurs technologiques plus petits ont suivi le mouvement, ce qui a entraîné une nouvelle "vague d'activité" au cours des deux derniers mois, a-t-il ajouté.

Jarrod Yahes a refusé de commenter les contrats individuels. L'accord avec Apple et le montant des autres contrats n'ont pas encore été rendus publics.

Freepik, un concurrent de Shutterstock, a déclaré à Reuters qu'il avait conclu des accords avec deux grandes entreprises technologiques pour l'exploitation sous licence de la majorité de ses archives (200 millions d'images), à raison de 2 à 4 centimes d'euro par image. Cinq autres accords similaires sont en cours de transactions, a déclaré le directeur général Joaquin Cuenca Abela, refusant d'identifier les acheteurs.

OpenAI, client de la première heure de Shutterstock, a également signé des accords de licence avec au moins quatre organismes de presse, dont The Associated Press et Axel Springer . Thomson Reuters, propriétaire de Reuters News, a déclaré séparément qu'il avait conclu des accords pour accorder des licences sur le contenu des actualités afin d'aider à former des modèles de langage à grande échelle pour l'IA, mais n'a pas divulgué de détails.

uN CONTENU "ÉTHIQUEMENT SOURCÉ

Un secteur d'entreprises spécialisées dans les données d'IA est également en train d'émerger, obtenant des droits sur des contenus réels tels que des podcasts, des vidéos de courte durée et des interactions avec des assistants numériques, tout en construisant des réseaux de travailleurs contractuels à court terme pour produire des visuels personnalisés et des échantillons de voix à partir de zéro, un peu comme une gig economy pour les données à la manière d'Uber.

La société Defined.ai, basée à Seattle, octroie des licences de données à une série d'entreprises, dont Google, Meta, Apple, Amazon et Microsoft, a déclaré Daniela Braga, directeur général de la société, à Reuters.

Les tarifs varient en fonction de l'acheteur et du type de contenu, mais Daniela Braga a déclaré que les entreprises étaient généralement prêtes à payer 1 à 2 dollars par image, 2 à 4 dollars par vidéo de courte durée et 100 à 300 dollars par heure de films plus longs. Le taux du marché pour le texte est de 0,001 $ par mot, a-t-elle ajouté.

Les images de nudité, qui nécessitent le traitement le plus délicat, se vendent entre 5 et 7 dollars.

Defined.ai partage ces gains avec les fournisseurs de contenu, a indiqué Mme Braga. Elle commercialise ses ensembles de données comme étant "d'origine éthique", car elle obtient le consentement des personnes dont elle utilise les données et supprime les informations d'identification personnelle, a-t-elle ajouté.

L'un des fournisseurs de l'entreprise, un entrepreneur basé au Brésil, a déclaré qu'il payait aux propriétaires des photos, des podcasts et des données médicales dont il s'approvisionnait environ 20 à 30 % du montant total de la transaction.

Les images les plus chères de son portefeuille sont celles utilisées pour former les systèmes d'intelligence artificielle qui bloquent les contenus tels que la violence graphique interdite par les entreprises technologiques, a déclaré le fournisseur, qui s'est exprimé à la condition que son entreprise ne soit pas identifiée, pour des raisons de sensibilité commerciale.

Pour répondre à ces demandes, il obtient des images de scènes de crime, de conflits violents et d'opérations chirurgicales - principalement auprès de la police, de photojournalistes indépendants et d'étudiants en médecine, respectivement - souvent en Amérique du Sud et en Afrique, où la diffusion d'images graphiques est plus courante, a-t-il déclaré.

Il a indiqué avoir reçu des images de photographes indépendants présents à Gaza depuis le début de la guerre en octobre, ainsi que des images provenant d'Israël au début des hostilités.

Sa société engage des infirmières habituées à voir des blessures violentes pour anonymiser et annoter les images, qui sont troublantes pour des yeux non entraînés, a-t-il ajouté.

jE TROUVERAIS CELA RISQUÉ

Si l'octroi de licences pourrait résoudre certains problèmes juridiques et éthiques, le fait de ressusciter les archives d'anciens sites internet comme Photobucket pour alimenter les derniers modèles d'IA en soulève d'autres, notamment en ce qui concerne la protection de la vie privée des utilisateurs, selon de nombreux acteurs de l'industrie interrogés.

Des systèmes d'IA ont été surpris en train de régurgiter des copies exactes de leurs données d'apprentissage, recrachant, par exemple, le filigrane de Getty Images , des paragraphes textuels d'articles du New York Times et des images de personnes réelles . Cela signifie que les photos privées d'une personne ou ses pensées intimes publiées il y a plusieurs dizaines d'années pourraient potentiellement se retrouver dans les résultats de l'IA générative sans préavis ni consentement explicite.

Le directeur général de Photobucket, M. Leonard, affirme qu'il s'appuie sur une base juridique solide, citant une mise à jour des conditions de service de l'entreprise en octobre qui lui accorde le "droit illimité" de vendre tout contenu téléchargé à des fins d'entraînement des systèmes d'IA. Il considère l'octroi de licences sur les données comme une alternative à la vente de publicités.

"Nous devons payer nos factures, et cela pourrait nous permettre de continuer à soutenir les comptes gratuits", a-t-il déclaré.

Mme Braga, de Defined.ai, a déclaré qu'elle évitait d'acquérir du contenu auprès de sociétés "plateformes" comme Photobucket et qu'elle préférait s'approvisionner en photos de médias sociaux auprès des influenceurs qui les avaient créées et qui, selon elle, pouvaient prétendre à des droits de licence plus clairs.

"Je trouverais cela très risqué", a déclaré Mme Braga à propos du contenu des plateformes. "Si une IA génère quelque chose qui ressemble à la photo d'une personne qui ne l'a jamais approuvée, c'est un problème

Photobucket n'est pas la seule plateforme à adopter les licences. Automattic, la société mère de Tumblr, a déclaré le mois dernier qu'elle partageait des contenus avec des "sociétés d'IA sélectionnées" En février, Reuters a rapporté que Reddit avait conclu un accord avec Google pour mettre son contenu à disposition afin d'entraîner les modèles d'IA de ce dernier.

Avant son introduction en bourse en mars, Reddit a révélé que son activité de licence de données faisait l'objet d'une enquête de la Commission fédérale du commerce (FTC) des États-Unis et a reconnu qu'elle pourrait se heurter à l'évolution des réglementations en matière de protection de la vie privée et de la propriété intellectuelle.

La FTC, qui a mis en garde les entreprises en février contre la modification rétroactive des conditions de service pour l'utilisation de l'IA, a refusé de commenter l'enquête sur Reddit ou de dire si elle examinait d'autres accords sur les données de formation.