A Meta Platforms está sob intenso escrutínio jurídico por seu suposto uso de materiais piratas no treinamento de seus modelos Llama AI. A empresa, liderada pelo CEO Mark Zuckerberg, é acusada de empregar conjuntos de dados não autorizados da LibGen, uma conhecida fonte de livros piratas e artigos acadêmicos.
Documentos recém-apresentados para uma ação judicial movida no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia (documento 1, documento 2) afirmam que Zuckerberg aprovou diretamente o conjunto de dados uso, apesar dos avisos internos sobre sua legalidade.
Autores proeminentes, incluindo Sarah Silverman e Ta-Nehisi Coates, estão entre os demandantes, argumentando que as ações da Meta violam a lei de direitos autorais e a Lei de Direitos Autorais do Milênio Digital (DMCA).
Eles também alegam violações de Califórnia Lei Abrangente de Acesso e Fraude de Dados de Computador (CDAFA), apontando para atividades de torrent e remoção de metadados que ocultavam as origens dos dados.
Torrents são uma tecnologia de compartilhamento de arquivos peer-to-peer que permite aos usuários baixar arquivos em segmentos menores de múltiplas fontes. Embora eficiente para compartilhar grandes conjuntos de dados, é frequentemente usado para distribuição de conteúdo pirata, pois é descentralizado e difícil de monitorar.
Relacionado: Meta admite exploração de dados de usuários australianos do Facebook para IA Treinamento sem consentimento
Aprovação apesar de objeções internas
Documentos e depoimentos internos revelam um padrão preocupante de tomada de decisões na Meta. Os engenheiros expressaram preocupações sobre o uso do LibGen, com um deles afirmando: “Não parece certo fazer torrent de um laptop corporativo [de propriedade da Meta].”
Essas objeções foram encaminhadas a Zuckerberg, que finalmente aprovou o conjunto de dados. uso. Um memorando interno confirmou: “Após escalação para MZ [Mark Zuckerberg], a equipe de IA da Meta foi aprovada para usar LibGen.”
Essa aprovação ocorreu enquanto a Meta buscava aprimorar o uso. capacidades de seus modelos Llama, uma parte crítica de sua estratégia para competir no setor de IA em rápido avanço. O conjunto de dados LibGen teria sido usado tanto para treinar quanto para ajustar os modelos, fornecendo os dados em grande escala necessários para desenvolver capacidades de processamento de linguagem.
Relacionado: Usuários saem do Facebook, Instagram, Threads após a reversão da verificação de fatos de Zuckerberg
Torrent e remoção de metadados
O processo acusa Meta de empregar protocolos de torrent para acessar e distribuir o conjunto de dados LibGen. O torrent envolve inerentemente a “propagação” ou o compartilhamento de partes do conteúdo baixado com outros usuários.
De acordo com o depoimento, os engenheiros da Meta configuraram as configurações de torrent para minimizar a visibilidade. Conforme observado no processo judicial, “Bashlykov configurou o [torrent ] configurações para que a menor quantidade de propagação possa ocorrer”, uma tentativa de evitar a detecção enquanto ainda participa da rede de compartilhamento de arquivos.
Além do torrent, o Meta supostamente retirou Informações de gerenciamento de direitos autorais (CMI) de os conjuntos de dados de treinamento. O CMI inclui metadados anexados a obras protegidas por direitos autorais que incluem detalhes como nome do autor, data de publicação e informações de licenciamento. A remoção do CMI é ilegal sob o DMCA se facilitar a violação de direitos autorais.
Os demandantes argumentam que essa remoção foi um ato deliberado para ocultar as origens do conjunto de dados e impedir que os modelos Llama produzissem conteúdo identificável protegido por direitos autorais.
Como afirma o processo, “O Meta retirou o CMI não apenas para fins de treinamento, mas também para ocultar sua violação de direitos autorais, porque a remoção do CMI de obras protegidas por direitos autorais impede o Llama de divulgar informações de direitos autorais que possam alertar os usuários do Llama e o público sobre Violação do Meta.”
Yann LeCun, cientista-chefe de IA da Meta, no ano passado deu uma dica de como Meta pensa sobre material protegido por direitos autorais quando sugeriu no X (antigo Twitter) que os autores de livros deveriam fazer seus trabalhos livremente disponível.
Apenas um pequeno número de autores de livros ganha dinheiro significativo com a venda de livros.
Isso parece sugerir que a maioria dos livros deveria estar disponível gratuitamente para download.
A receita perdida para os autores seriam pequenos e os benefícios para a sociedade, grandes em comparação. https://t.co/4ObkW1tm85— Yann. LeCun (@ylecun) 1º de janeiro de 2024
Legal e Implicações Éticas
Os argumentos legais contra a Meta incluem reivindicações sob o DMCA por remover CMI e CDAFA por acessar e usar dados piratas sem autorização. Os demandantes alegam que o torrent e a remoção de metadados do Meta foram essenciais para ocultar o uso de materiais protegidos por direitos autorais.
O juiz Vince Chhabria, que supervisiona o caso, criticou as tentativas da Meta de redigir partes substanciais do processo, observando: “É claro que o pedido de selamento da Meta não foi projetado para proteger contra a divulgação de informações comerciais confidenciais… Em vez disso, , ele foi projetado para evitar publicidade negativa.”
As alegações contra Meta fazem parte de uma conversa mais ampla sobre como os modelos de IA são treinados. Grandes modelos de linguagem como o Llama geralmente dependem de enormes conjuntos de dados que podem incluir material protegido por direitos autorais.
Embora empresas como a Meta argumentem que tal uso se enquadra no uso justo, os críticos afirmam que isso infringe os direitos dos criadores e destacam a necessidade de estruturas legais mais claras no desenvolvimento de IA.
Contexto mais amplo da indústria
Este caso não é um incidente isolado O rápido desenvolvimento da IA generativa levou a vários processos judiciais contra grandes empresas de tecnologia, com criadores e detentores de direitos autorais questionando a legalidade e a ética. de usando suas obras sem consentimento.
O caso da Meta reflete uma tensão mais ampla entre inovação tecnológica e leis de propriedade intelectual. O processo também esclarece as decisões operacionais dentro da Meta, onde o esforço para permanecer competitivo em IA aparentemente superava as considerações éticas e legais.
As práticas da Meta levantam questões sobre como as empresas equilibram inovação com conformidade e responsabilidade. O caso pode abrir um precedente sobre como os tribunais lidam com o uso de material protegido por direitos autorais em treinamentos de IA, potencialmente influenciando regulamentações e padrões do setor.