par Katie Paul
Les avocats de Meta Platforms META.O l'avaient prévenu des périls juridiques liés à l'utilisation de milliers de livres piratés pour entraîner ses modèles d'IA, mais l'entreprise l'a quand même fait, selon un nouveau dépôt dans un procès pour violation du droit d'auteur initialement intenté cet été.
Le nouveau dossier déposé lundi soir consolide deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, qui allèguent que Meta a utilisé leurs œuvres sans autorisation pour entraîner son modèle de langage d'intelligence artificielle, Llama.
Le mois dernier, un juge californien a rejeté une partie du procès de Silverman et a indiqué qu'il autoriserait les auteurs à modifier leurs revendications.
Meta n'a pas répondu immédiatement à une demande de commentaire sur ces allégations.
La nouvelle plainte, déposée lundi, comprend des journaux de discussion d'un chercheur affilié à Meta discutant de l'acquisition de l'ensemble de données dans un serveur Discord, un élément de preuve potentiellement important indiquant que Meta était conscient que son utilisation des livres pourrait ne pas être protégée par la loi américaine sur le droit d'auteur.
Dans les journaux de discussion cités dans la plainte, le chercheur Tim Dettmers décrit ses allers-retours avec le service juridique de Meta pour savoir si l'utilisation des fichiers de livres comme données d'entraînement serait "légalement acceptable"
"Chez Facebook, de nombreuses personnes, dont moi-même, souhaitent travailler avec (T)he (P)ile, mais dans sa forme actuelle, nous ne pouvons pas l'utiliser pour des raisons juridiques", écrit Dettmers en 2021, en référence à un ensemble de données que Meta a reconnu avoir utilisé pour entraîner sa première version de Llama, selon la plainte.
Le mois précédent, Dettmers a écrit que les avocats de Meta lui avaient dit que "les données ne peuvent pas être utilisées ou que les modèles ne peuvent pas être publiés s'ils sont entraînés sur ces données", selon la plainte.
Bien que M. Dettmers ne décrive pas les préoccupations des avocats, ses homologues dans le chat identifient les "livres avec des droits d'auteur actifs" comme la plus grande source probable d'inquiétude. Ils affirment que la formation sur les données devrait "relever de l'usage loyal", une doctrine juridique américaine qui protège certaines utilisations sans licence d'œuvres protégées par le droit d'auteur.
M. Dettmers, doctorant à l'université de Washington, a déclaré à Reuters qu'il n'était pas en mesure de commenter ces allégations dans l'immédiat.
Cette année, les entreprises technologiques ont fait l'objet d'une série de poursuites de la part de créateurs de contenu qui les accusent d'avoir détourné des œuvres protégées par le droit d'auteur pour créer des modèles d'IA générative qui ont fait sensation dans le monde entier et suscité une frénésie d'investissements.
S'ils aboutissent, ces procès pourraient freiner l'engouement pour l'IA générative, car ils pourraient augmenter le coût de construction des modèles gourmands en données en obligeant les entreprises d'IA à rémunérer les artistes, les auteurs et les autres créateurs de contenu pour l'utilisation de leurs œuvres.
Dans le même temps, les nouvelles règles provisoires en Europe régissant l'intelligence artificielle pourraient obliger les entreprises à divulguer les données qu'elles utilisent pour former leurs modèles, ce qui les exposerait à un risque juridique plus important.
Meta a publié une première version de son modèle linguistique Llama en février et a publié une liste d'ensembles de données utilisés pour l'entraînement, y compris "la section Books3 de ThePile" La personne qui a assemblé cet ensemble de données a déclaré ailleurs qu'il contenait 196 640 livres, selon la plainte.
L'entreprise n'a pas divulgué les données d'entraînement pour sa dernière version du modèle, Llama 2, qu'elle a mis à disposition pour un usage commercial cet été.
Llama 2 est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs actifs mensuels. Son lancement a été perçu dans le secteur technologique comme pouvant changer la donne sur le marché des logiciels d'IA générative, menaçant de remettre en cause la domination d'acteurs tels qu'OpenAI et Google qui font payer l'utilisation de leurs modèles.

0 commentaire
Vous devez être membre pour ajouter un commentaire.
Vous êtes déjà membre ? Connectez-vous
Pas encore membre ? Devenez membre gratuitement
Signaler le commentaire
Fermer