Selon les auteurs, Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement à l'IA malgré les avertissements de ses propres avocats

Reuters12/12/2023 à 23:45

par Katie Paul

Les avocats de Meta Platforms META.O l'avaient prévenu des périls juridiques liés à l'utilisation de milliers de livres piratés pour entraîner ses modèles d'IA, mais l'entreprise l'a quand même fait, selon un nouveau dépôt dans un procès pour violation du droit d'auteur initialement intenté cet été.

Le nouveau dossier déposé lundi soir consolide deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, qui allèguent que Meta a utilisé leurs œuvres sans autorisation pour entraîner son modèle de langage d'intelligence artificielle, Llama.

Le mois dernier, un juge californien a rejeté une partie du procès de Silverman et a indiqué qu'il autoriserait les auteurs à modifier leurs revendications.

Meta n'a pas répondu immédiatement à une demande de commentaire sur ces allégations.

La nouvelle plainte, déposée lundi, comprend des journaux de discussion d'un chercheur affilié à Meta discutant de l'acquisition de l'ensemble de données dans un serveur Discord, un élément de preuve potentiellement important indiquant que Meta était conscient que son utilisation des livres pourrait ne pas être protégée par la loi américaine sur le droit d'auteur.

Dans les journaux de discussion cités dans la plainte, le chercheur Tim Dettmers décrit ses allers-retours avec le service juridique de Meta pour savoir si l'utilisation des fichiers de livres comme données d'entraînement serait "légalement acceptable"

"Chez Facebook, de nombreuses personnes, dont moi-même, souhaitent travailler avec (T)he (P)ile, mais dans sa forme actuelle, nous ne pouvons pas l'utiliser pour des raisons juridiques", écrit Dettmers en 2021, en référence à un ensemble de données que Meta a reconnu avoir utilisé pour entraîner sa première version de Llama, selon la plainte.

Le mois précédent, Dettmers a écrit que les avocats de Meta lui avaient dit que "les données ne peuvent pas être utilisées ou que les modèles ne peuvent pas être publiés s'ils sont entraînés sur ces données", selon la plainte.

Bien que M. Dettmers ne décrive pas les préoccupations des avocats, ses homologues dans le chat identifient les "livres avec des droits d'auteur actifs" comme la plus grande source probable d'inquiétude. Ils affirment que la formation sur les données devrait "relever de l'usage loyal", une doctrine juridique américaine qui protège certaines utilisations sans licence d'œuvres protégées par le droit d'auteur.

M. Dettmers, doctorant à l'université de Washington, a déclaré à Reuters qu'il n'était pas en mesure de commenter ces allégations dans l'immédiat.

Cette année, les entreprises technologiques ont fait l'objet d'une série de poursuites de la part de créateurs de contenu qui les accusent d'avoir détourné des œuvres protégées par le droit d'auteur pour créer des modèles d'IA générative qui ont fait sensation dans le monde entier et suscité une frénésie d'investissements.

S'ils aboutissent, ces procès pourraient freiner l'engouement pour l'IA générative, car ils pourraient augmenter le coût de construction des modèles gourmands en données en obligeant les entreprises d'IA à rémunérer les artistes, les auteurs et les autres créateurs de contenu pour l'utilisation de leurs œuvres.

Dans le même temps, les nouvelles règles provisoires en Europe régissant l'intelligence artificielle pourraient obliger les entreprises à divulguer les données qu'elles utilisent pour former leurs modèles, ce qui les exposerait à un risque juridique plus important.

Meta a publié une première version de son modèle linguistique Llama en février et a publié une liste d'ensembles de données utilisés pour l'entraînement, y compris "la section Books3 de ThePile" La personne qui a assemblé cet ensemble de données a déclaré ailleurs qu'il contenait 196 640 livres, selon la plainte.

L'entreprise n'a pas divulgué les données d'entraînement pour sa dernière version du modèle, Llama 2, qu'elle a mis à disposition pour un usage commercial cet été.

Llama 2 est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs actifs mensuels. Son lancement a été perçu dans le secteur technologique comme pouvant changer la donne sur le marché des logiciels d'IA générative, menaçant de remettre en cause la domination d'acteurs tels qu'OpenAI et Google qui font payer l'utilisation de leurs modèles.

A lire aussi

L’Oréal et l’IA, entre innovation et création de valeur

Boursorama03.07.202610:03

On pense bien connaitre le leader mondial de la beauté mais que sait-on vraiment de sa transformation technologique et de la façon dont L'Oréal pilote et déploie l'innovation ? Car derrière l'image du créateur de beauté qui fait avancer le monde, on a une entreprise ... Lire la suite

Investir sur l’IA avec les produits de bourse

Boursorama03.07.202609:18

L'intelligence artificielle s'est imposée comme l'un des thèmes dominants sur les marchés. Quelles valeurs surveiller, et comment investir avec les produits de Bourse ? Avec : Léa Jézequel, Vendeuse produits de Bourse, Société Générale Nicolas Schneller, Président, ... Lire la suite

Le siège de l'opérateur boursier Euronext, dans le quartier d'affaires de La Défense, près de Paris, le 9 octobre 2025 ( AFP / Ludovic MARIN )

Les Bourses européennes ouvrent dans le vert

AFP03.07.202609:11

Les Bourses européennes ont ouvert dans le vert vendredi, profitant des anticipations de politique monétaire américaine moins restrictive, au lendemain de la publication de données décevantes sur l'emploi aux Etats-Unis. Dans les premiers échanges, la Bourse de ... Lire la suite

Photo diffusée par le bureau du Guide suprême iranien, l'ayatollah Ali Khamenei, le montrant en train de saluer la foule à Téhéran le 4 juin 2018 ( KHAMENEI.IR / - )

La dépouille du guide suprême Khamenei est arrivée sur le lieu de ses funérailles à Téhéran

AFP03.07.202608:40

Le cercueil de l'ancien guide suprême iranien Ali Khamenei est arrivé vendredi dans le complexe religieux de Téhéran où se dérouleront des funérailles d'une ampleur inédite, quatre mois après sa mort dans une frappe israélo-américaine. Les autorités attendent entre ... Lire la suite

valeur	dernier	var.
2CRSI	38,3	+1,48%
CAC 40	8 476,63	+0,02%
Pétrole Brent	71,84	+0,39%
GENFIT	11,98	+13,23%
MEDIAN TECHNOLOGIES	5,14	+4,05%

valeur

dernier

var.

2CRSI

38,3

+1,48%

CAC 40

8 476,63

+0,02%

Pétrole Brent

71,84

+0,39%

GENFIT

11,98

+13,23%

MEDIAN TECHNOLOGIES

5,14

+4,05%

Selon les auteurs, Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement à l'IA malgré les avertissements de ses propres avocats
information fournie par Reuters 12/12/2023 à 23:45

Valeurs associées

0 commentaire

A lire aussi

Mes listes

valeur

dernier

var.

Pages les plus populaires

L'offre BoursoBank

Selon les auteurs, Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement à l'IA malgré les avertissements de ses propres avocats information fournie par Reuters •12/12/2023 à 23:45

Valeurs associées

0 commentaire

A lire aussi

Mes listes

valeur

dernier

var.

Pages les plus populaires

L'offre BoursoBank

Selon les auteurs, Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement à l'IA malgré les avertissements de ses propres avocats
information fournie par Reuters 12/12/2023 à 23:45