Meta Platforms está bajo un intenso escrutinio legal por su presunto uso de materiales pirateados en el entrenamiento de sus modelos Llama AI. La empresa, dirigida por el director ejecutivo Mark Zuckerberg, está acusada de emplear conjuntos de datos no autorizados de LibGen, una conocida fuente de libros pirateados. y artículos académicos.
Documentos recién presentados para una demanda presentada en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California (documento 1, documento 2) afirman que Zuckerberg aprobó directamente el conjunto de datos uso, a pesar de las advertencias internas sobre su legalidad.
Autores destacados, incluidos Sarah Silverman y Ta-Nehisi Coates, se encuentran entre los demandantes, argumentando que las acciones de Meta violan la ley de derechos de autor y la Ley de Derechos de Autor del Milenio Digital (DMCA).
También alegan violaciones de Informática integral de California Ley de Fraude y Acceso a Datos (CDAFA), que señala actividades de descarga de torrents y eliminación de metadatos que ocultaban los orígenes de los datos.
Los torrents son una tecnología para compartir archivos de igual a igual que permite a los usuarios descargar archivos en segmentos más pequeños de múltiples fuentes. Si bien es eficaz para compartir grandes conjuntos de datos, a menudo se utiliza para distribuir contenido pirateado, ya que está descentralizado y es difícil de monitorear.
Relacionado: Meta admite aprovechar datos de usuarios australianos de Facebook para IA Capacitación sin consentimiento
Aprobación a pesar de las objeciones internas
Los documentos y declaraciones internos revelan un patrón preocupante de toma de decisiones en Meta. Los ingenieros expresaron su preocupación sobre el uso de LibGen, y uno de ellos afirmó:”No me parece bien descargar torrents desde una computadora portátil corporativa [propiedad de Meta].
Estas objeciones se trasladaron a Zuckerberg, quien finalmente aprobó el uso del conjunto de datos. uso Un memorando interno confirmó:”Después de la escalada a MZ [Mark Zuckerberg], el equipo de IA de Meta fue aprobado para usar LibGen”.
Esta aprobación se produjo cuando Meta buscaba mejorar. las capacidades de sus modelos Llama, una parte fundamental de su estrategia para competir en el sector de la IA en rápido avance. Según se informa, el conjunto de datos LibGen se utilizó tanto para entrenar como para ajustar los modelos, proporcionando los datos a gran escala necesarios para desarrollar capacidades de procesamiento del lenguaje.
Relacionado: Los usuarios abandonan Facebook, Instagram, hilos después de la reversión de verificación de datos de Zuckerberg
Torrenting y eliminación de metadatos
La demanda acusa a Meta de emplear protocolos de torrents para acceder y distribuir el conjunto de datos LibGen. El uso de torrents implica inherentemente”sembrar”o compartir partes del contenido descargado con otros usuarios.
Según el testimonio, los ingenieros de Meta configuraron los ajustes de torrents para minimizar la visibilidad. Como se señala en el expediente judicial, “Bashlykov configuró el [torrent] ] para que pueda ocurrir la menor cantidad de siembra”, un intento de evitar la detección mientras se sigue participando en la red de intercambio de archivos.
Además de descargar torrents, Meta supuestamente eliminó Información de gestión de derechos de autor (CMI) de los conjuntos de datos de entrenamiento. CMI incluye metadatos adjuntos a obras protegidas por derechos de autor que incluyen detalles como el nombre del autor, la fecha de publicación y la información de la licencia. Eliminar CMI es ilegal según la DMCA si facilita la infracción de derechos de autor.
Los demandantes argumentan que esta eliminación fue un acto deliberado para ocultar los orígenes del conjunto de datos y evitar que los modelos Llama generen contenido identificable protegido por derechos de autor.
Como dice la demanda, “Meta eliminó CMI no sólo con fines de capacitación sino también para ocultar su infracción de derechos de autor, porque eliminar CMI de obras protegidas por derechos de autor impide que Llama genere información de derechos de autor que pueda alertar a los usuarios de Llama y al público sobre La infracción de Meta.”
Yann LeCun, el jefe científico de IA de Meta, dio el año pasado una pista sobre cómo piensa Meta sobre el material protegido por derechos de autor cuando sugirió en X (anteriormente Twitter) que los autores de libros deberían hacer sus obras están disponibles gratuitamente.
Sólo un pequeño número de autores de libros obtienen ingresos significativos con las ventas de libros.
Esto parece sugerir que la mayoría de los libros deberían estar disponibles gratuitamente para su descarga.
El La pérdida de ingresos para los autores sería pequeña y, en comparación, los beneficios para la sociedad serían grandes https://t.co/4ObkW1tm85. — Yann LeCun (@ylecun) 1 de enero de 2024
Legal e implicaciones éticas
Los argumentos legales contra Meta incluyen afirmaciones bajo la DMCA para eliminar CMI y CDAFA por acceder y utilizar datos pirateados sin autorización. Los demandantes alegan que los torrents y la eliminación de metadatos de Meta fueron fundamentales para ocultar su uso de materiales protegidos por derechos de autor.
El juez Vince Chhabria, que supervisa el caso, criticó los intentos de Meta de redactar partes sustanciales de la presentación y señaló: “Está claro que la solicitud de sellado de Meta no está diseñada para proteger contra la divulgación de información comercial confidencial… Más bien , está diseñado para evitar publicidad negativa.”
Las acusaciones contra Meta son parte de una conversación más amplia sobre cómo se entrenan los modelos de IA. Los grandes modelos de lenguaje como Llama a menudo dependen de conjuntos de datos masivos que pueden incluir material protegido por derechos de autor.
Si bien empresas como Meta argumentan que dicho uso se considera uso legítimo, los críticos sostienen que infringe los derechos de los creadores y resalta la necesidad de marcos legales más claros en el desarrollo de la IA.
Contexto industrial más amplio
Este caso no es un incidente aislado. El rápido desarrollo de la IA generativa ha dado lugar a varias demandas contra importantes empresas de tecnología, y los creadores y titulares de derechos de autor cuestionan la legalidad y la ética. de utilizar sus obras sin consentimiento.
El caso de Meta refleja una tensión más amplia entre la innovación tecnológica y las leyes de propiedad intelectual. La demanda también arroja luz sobre las decisiones operativas dentro de Meta, donde el impulso para seguir siendo competitivo en IA aparentemente pesaba más que las consideraciones éticas y legales.
Las prácticas de Meta plantean preguntas sobre cómo las empresas equilibran la innovación con el cumplimiento y la responsabilidad. El caso podría sentar un precedente sobre cómo los tribunales manejan el uso de material protegido por derechos de autor en la capacitación en inteligencia artificial, lo que podría influir en las regulaciones y estándares de la industria.