Meta Platforms fait l’objet d’un examen juridique intense pour son utilisation présumée de matériel piraté dans la formation de ses modèles Llama AI. L’entreprise, dirigée par son PDG Mark Zuckerberg, est accusée d’avoir utilisé des ensembles de données non autorisés provenant de LibGen, une source bien connue de livres piratés. et articles universitaires.
Documents récemment déposés pour un procès déposé auprès du tribunal de district américain du district nord de Californie (document 1, document 2) affirme que Zuckerberg a directement approuvé l’ensemble de données utilisation, malgré les avertissements internes quant à sa légalité.
Des auteurs éminents, dont Sarah Silverman et Ta-Nehisi Coates, font partie les plaignants, arguant que les actions de Meta violent la loi sur le droit d’auteur et le Digital Millennium Copyright Act (DMCA).
Ils allèguent également des violations de L’ordinateur complet de Californie Loi sur l’accès aux données et la fraude (CDAFA), soulignant les activités de torrenting et la suppression des métadonnées qui dissimulaient l’origine des données.
Les torrents sont une technologie de partage de fichiers peer-to-peer qui permet aux utilisateurs de télécharger des fichiers en segments plus petits à partir de plusieurs sources. Bien qu’efficace pour partager de grands ensembles de données, il est souvent utilisé pour distribuer du contenu piraté, car il est décentralisé et difficile à surveiller.
Connexe : Meta admet avoir exploité les données des utilisateurs australiens de Facebook pour l’IA. Formation sans consentement
Approbation malgré les objections internes
Les documents internes et les dépositions révèlent un modèle troublant de prise de décision chez Meta. Les ingénieurs ont exprimé leurs inquiétudes quant à l’utilisation de LibGen, l’un d’entre eux déclarant: « Torrent depuis un ordinateur portable d’entreprise [appartenant à Meta] ne semble pas correct. »
Ces objections ont été transmises à Zuckerberg, qui a finalement approuvé l’ensemble de données. Une note interne a confirmé :”Après la transmission à MZ [Mark Zuckerberg], l’équipe d’IA de Meta a été autorisée à utiliser LibGen.”
Cette approbation a eu lieu alors que Meta cherchait à améliorer l’utilisation de LibGen. capacités de ses modèles Llama, un élément essentiel de sa stratégie pour rivaliser dans le secteur de l’IA en évolution rapide. L’ensemble de données LibGen aurait été utilisé à la fois pour entraîner et affiner les modèles, fournissant les données à grande échelle nécessaires au développement des capacités de traitement du langage.
Connexe : Les utilisateurs quittent Facebook, Instagram, discussions après l’inversion de la vérification des faits par Zuckerberg
Torrenting et suppression des métadonnées
Le procès accuse Meta d’utiliser des protocoles de torrent pour accéder et distribuer l’ensemble de données LibGen. Le torrenting implique intrinsèquement « l’ensemencement » ou le partage de parties de contenu téléchargé avec d’autres utilisateurs.
Selon des témoignages, les ingénieurs Meta ont configuré les paramètres de torrenting pour minimiser la visibilité. Comme indiqué dans le dossier judiciaire, « Bashlykov a configuré le [torrent ] afin que le plus petit nombre d’amorçages puisse se produire”, une tentative d’éviter la détection tout en participant au réseau de partage de fichiers.
En plus du torrenting, Meta aurait supprimé Informations sur la gestion des droits d’auteur (CMI) de les ensembles de données de formation. CMI inclut des métadonnées attachées aux œuvres protégées par le droit d’auteur qui incluent des détails tels que le nom de l’auteur, la date de publication et les informations de licence. La suppression de CMI est illégale en vertu du DMCA si elle facilite la violation du droit d’auteur.
Les plaignants affirment que cette suppression était un acte délibéré visant à obscurcir les origines de l’ensemble de données et à empêcher les modèles Llama de produire un contenu identifiable protégé par le droit d’auteur.
Comme l’indique le procès,”Meta a supprimé le CMI non seulement à des fins de formation, mais également pour masquer sa violation du droit d’auteur, car la suppression du CMI des œuvres protégées par le droit d’auteur empêche Llama de produire des informations de droit d’auteur qui pourraient alerter les utilisateurs de Llama et le public”. La violation de Meta.”
Yann LeCun, scientifique en chef de l’IA de Meta, a donné l’année dernière une idée de ce que Meta pensait du matériel protégé par le droit d’auteur lorsqu’il a suggéré sur X (anciennement Twitter) que les auteurs de livres devraient faire leurs œuvres sont disponibles gratuitement.
Seul un petit nombre d’auteurs de livres gagnent beaucoup d’argent grâce à la vente de livres.
Cela semble suggérer que la plupart des livres devraient être disponibles gratuitement en téléchargement.
Le en comparaison, la perte de revenus pour les auteurs serait faible et les avantages pour la société https://t.co/4ObkW1tm85.-Yann LeCun (@ylecun) 1er janvier 2024
Juridique et implications éthiques
Les arguments juridiques contre Meta incluent des réclamations au titre de la DMCA pour supprimer CMI et CDAFA pour accéder et utiliser des données piratées sans autorisation. Les plaignants allèguent que le torrenting et la suppression des métadonnées de Meta faisaient partie intégrante de la dissimulation de son utilisation de matériels protégés par le droit d’auteur.
Le juge Vince Chhabria, supervisant l’affaire, a critiqué les tentatives de Meta de supprimer des parties substantielles du dossier, notant: « Il est clair que la demande de mise sous scellés de Meta n’est pas conçue pour protéger contre la divulgation d’informations commerciales sensibles… Au contraire. , il est conçu pour éviter toute publicité négative.”
Les allégations contre Meta font partie d’une conversation plus large sur la façon dont les modèles d’IA sont formés. Les grands modèles de langage comme Llama s’appuient souvent sur des ensembles de données massifs pouvant inclure du matériel protégé par le droit d’auteur.
Alors que des entreprises comme Meta soutiennent qu’une telle utilisation relève de l’usage loyal, les critiques affirment qu’elle porte atteinte aux droits des créateurs et souligne la nécessité de cadres juridiques plus clairs dans le développement de l’IA.
Contexte industriel plus large
Cette affaire n’est pas un incident isolé. Le développement rapide de l’IA générative a conduit à plusieurs poursuites contre de grandes entreprises technologiques, les créateurs et les détenteurs de droits d’auteur remettant en question la légalité et l’éthique. d’utiliser leurs œuvres sans consentement.
Le cas de Meta reflète une tension plus large entre l’innovation technologique et les lois sur la propriété intellectuelle. Le procès met également en lumière les décisions opérationnelles au sein de Meta, où la volonté de rester compétitive dans le domaine de l’IA l’emportait apparemment sur les considérations éthiques et juridiques.
Les pratiques de Meta soulèvent des questions sur la manière dont les entreprises équilibrent l’innovation avec la conformité et la responsabilité. Cette affaire pourrait créer un précédent quant à la manière dont les tribunaux traitent l’utilisation de matériel protégé par le droit d’auteur dans la formation en IA, ce qui pourrait influencer les réglementations et les normes de l’industrie.