Des auteurs poursuivent la société d'intelligence artificielle Anthropic pour violation du droit d'auteur

Les avocats de trois auteurs ont intenté une action en justice fédérale accusant la start-up d’intelligence artificielle Antrhopic de violation de droits d’auteur pour avoir prétendument inclus des copies non autorisées de leurs données de formation. Le recours collectif potentiel, intenté par les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson, a été déposé dans le district nord de la Californie à San Francisco, et accuse la société d’avoir utilisé un ensemble de données, surnommé « la Pile », qui contiendrait une mine d’œuvres piratées pour développer son produit Claude AI.

« Anthropic a tiré d’énormes bénéfices financiers de l’exploitation de matériel protégé par le droit d’auteur », indique la plainte, notant qu’Anthropic prévoit de générer plus de 850 millions de dollars de revenus en 2024. « Les gains commerciaux d’Anthropic se sont faits aux dépens des créateurs et des titulaires de droits. »

La plainte se poursuit. « Les lecteurs de livres achètent généralement des livres. Anthropic n’a même pas pris cette mesure élémentaire et insuffisante. Anthropic n’a jamais cherché – et encore moins payé – une licence pour copier et exploiter l’expression protégée contenue dans les œuvres protégées par le droit d’auteur introduites dans ses modèles. Au lieu de cela, Anthropic a fait ce que n’importe quel adolescent pourrait vous dire être illégal. Elle a intentionnellement téléchargé des copies piratées de livres sur Internet, en a fait des copies sans licence, puis a utilisé ces copies sans licence pour digérer et analyser l’expression protégée par le droit d’auteur – tout cela pour son propre profit commercial. »

Bien que la plainte indique qu’Anthropic n’a pas partagé de détails sur son corpus de formation pour Claude, la plainte affirme qu’Anthropic a admis avoir utilisé « la Pile », que les avocats ont décrit comme « un ensemble de données open source de plus de 800 Go créé pour la formation de modèles linguistiques de grande envergure » et qui comprendrait une collection controversée appelée « Books3 », qui serait un trésor de livres piratés.

Anthropic, fondée par d’anciens employés d’OpenAI, a présenté Claude comme un service d’IA puissant et sécurisé « soutenu par une intégrité sans compromis ». L’entreprise fait actuellement face à une plainte pour violation de droits d’auteur déposée par l’industrie musicale.

La plainte déposée par les auteurs s’ajoute à une série de litiges en cours intentés par des auteurs contre des sociétés d’IA, notamment deux plaintes déposées le 28 juin et le 7 juillet de l’année dernière par le cabinet d’avocats Joseph Saveri au nom de cinq plaignants nommés : Mona Awad – qui a depuis abandonné l’affaire – et Paul Tremblay dans la première affaire, et Christopher Golden, Richard Kadrey et la comédienne Sarah Silverman dans la seconde. Une troisième action a été déposée en septembre et inclut les auteurs Michael Chabon, David Henry Hwang, Matthew Klam, Rachel Louise Snyder et Ayelet Waldman, entre autres. Un tribunal a maintenant ordonné que la troisième affaire soit fusionnée avec les deux premières affaires de la plainte modifiée.

Un autre procès a également été intenté à New York contre Open AI en septembre 2023, par l’Authors Guild et une multitude d’auteurs, dont David Baldacci, John Grisham et Jodi Picoult. Les plaintes reposent toutes sur des allégations presque identiques : les entreprises d’IA violent le droit d’auteur en utilisant des copies non autorisées de livres et d’articles pour former des modèles d’IA, y compris des copies récupérées sur des sites pirates notoires.

Au moment de la mise sous presse, Anthropic n’avait pas commenté le procès.

Des auteurs poursuivent la société d’intelligence artificielle Anthropic pour violation du droit d’auteur