การยื่นฟ้องของศาลเปิดเผยว่า Zuckerberg อนุมัติการใช้เนื้อหาที่ละเมิดลิขสิทธิ์สำหรับการฝึกอบรม AI ของโมเดล LLama ได้อย่างไร

Meta Platforms อยู่ภายใต้การตรวจสอบทางกฎหมายอย่างเข้มงวดเนื่องจากถูกกล่าวหาว่าใช้สื่อละเมิดลิขสิทธิ์ในการฝึกโมเดล Llama AI บริษัทที่นำโดย Mark Zuckerberg ซีอีโอ ถูกกล่าวหาว่าใช้ชุดข้อมูลที่ไม่ได้รับอนุญาตจาก LibGen ซึ่งเป็นแหล่งหนังสือละเมิดลิขสิทธิ์ที่มีชื่อเสียง และบทความทางวิชาการ

เอกสารที่ยื่นใหม่สำหรับการฟ้องร้องในศาลแขวงสหรัฐประจำเขตทางตอนเหนือของรัฐแคลิฟอร์เนีย (เอกสาร 1, เอกสาร 2) อ้างว่า Zuckerberg อนุมัติชุดข้อมูลโดยตรง การใช้งาน แม้จะมีคำเตือนภายในเกี่ยวกับความถูกต้องตามกฎหมายก็ตาม

ผู้เขียนที่มีชื่อเสียง รวมถึง Sarah Silverman และ Ta-Nehisi Coates เป็นหนึ่งในโจทก์ โดยให้เหตุผลว่าการกระทำของ Meta ละเมิดกฎหมายลิขสิทธิ์และ Digital Millennium Copyright Act (DMCA).

พวกเขายังกล่าวหาว่ามีการละเมิด คอมพิวเตอร์ที่ครอบคลุมของแคลิฟอร์เนีย พระราชบัญญัติการเข้าถึงข้อมูลและการฉ้อโกง (CDAFA) ชี้ไปที่กิจกรรมฝนตกหนักและการแยกข้อมูลเมตาที่ปกปิดที่มาของข้อมูล

ทอร์เรนต์เป็นเทคโนโลยีการแบ่งปันไฟล์แบบ peer-to-peer ที่อนุญาตให้ผู้ใช้ดาวน์โหลดไฟล์ในส่วนเล็กๆ จากหลายแหล่ง แม้ว่าจะมีประสิทธิภาพในการแชร์ชุดข้อมูลขนาดใหญ่ แต่ก็มักจะใช้สำหรับการกระจายเนื้อหาที่ละเมิดลิขสิทธิ์ เนื่องจากมีการกระจายอำนาจและยากต่อการตรวจสอบ

ที่เกี่ยวข้อง: Meta ยอมรับการแตะข้อมูลผู้ใช้ Facebook ของออสเตรเลียสำหรับ AI การฝึกอบรมโดยไม่ได้รับความยินยอม

การอนุมัติแม้จะมีการคัดค้านภายใน

เอกสารภายในและการสะสมเผยให้เห็นรูปแบบการตัดสินใจที่น่าหนักใจที่ Meta วิศวกรแสดงความกังวลเกี่ยวกับการใช้ LibGen โดยมีข้อความหนึ่งระบุว่า”การ Torrent จากแล็ปท็อปขององค์กร [Meta ที่เป็นเจ้าของ] รู้สึกไม่เหมาะสม”

การคัดค้านเหล่านี้ได้รับการยกระดับไปยัง Zuckerberg ซึ่งท้ายที่สุดก็อนุมัติชุดข้อมูล การใช้งาน บันทึกภายในยืนยันว่า “หลังจากการส่งต่อไปยัง MZ [Mark Zuckerberg] ทีม AI ของ Meta ได้รับการอนุมัติให้ใช้ LibGen”

การอนุมัตินี้เกิดขึ้นเมื่อ Meta ต้องการ เพิ่มขีดความสามารถของโมเดล Llama ซึ่งเป็นส่วนสำคัญของกลยุทธ์ในการแข่งขันในภาค AI ที่ก้าวหน้าอย่างรวดเร็ว มีรายงานว่าชุดข้อมูล LibGen ใช้สำหรับการฝึกอบรมและการปรับแต่งโมเดลอย่างละเอียด โดยให้ข้อมูลขนาดใหญ่ที่จำเป็นในการพัฒนาความสามารถในการประมวลผลภาษา

ที่เกี่ยวข้อง: ผู้ใช้ออกจาก Facebook Instagram กระทู้หลังจากการกลับรายการการตรวจสอบข้อเท็จจริงของ Zuckerberg

การลบฝนตกหนักและการลบข้อมูลเมตา

คดีกล่าวหาว่า Meta ใช้โปรโตคอลฝนตกหนักเพื่อเข้าถึง และแจกจ่ายชุดข้อมูล LibGen การทอร์เรนต์โดยเนื้อแท้เกี่ยวข้องกับการ”เพาะ”หรือการแชร์เนื้อหาที่ดาวน์โหลดบางส่วนกับผู้ใช้รายอื่น

ตามคำให้การ วิศวกร Meta ได้กำหนดค่าการตั้งค่าการทอร์เรนต์เพื่อลดการมองเห็น ดังที่ระบุไว้ในการยื่นฟ้องของศาล”Bashlykov กำหนดค่า [ทอร์เรนต์”] การตั้งค่าเพื่อให้เกิด seeding ในปริมาณน้อยที่สุด”ซึ่งเป็นความพยายามที่จะหลีกเลี่ยงการตรวจพบในขณะที่ยังคงมีส่วนร่วมในเครือข่ายการแชร์ไฟล์

นอกเหนือจากการทอร์เรนต์แล้ว Meta มีรายงานว่าถูกถอด ข้อมูลการจัดการลิขสิทธิ์ (CMI) จากชุดข้อมูลการฝึกอบรม CMI มีข้อมูลเมตาที่แนบมากับงานที่มีลิขสิทธิ์ซึ่งรวมถึงรายละเอียด เช่น ชื่อผู้แต่ง วันที่ตีพิมพ์ และข้อมูลใบอนุญาต การนำ CMI ออกนั้นผิดกฎหมายภายใต้ DMCA หากเอื้อต่อการละเมิดลิขสิทธิ์

โจทก์โต้แย้งว่าการลบนี้เป็นการกระทำโดยเจตนาเพื่อปิดบังต้นกำเนิดของชุดข้อมูล และป้องกันไม่ให้โมเดล Llama แสดงเนื้อหาที่มีลิขสิทธิ์ที่สามารถระบุตัวตนได้

ตามคำฟ้องระบุว่า “Meta ปล้น CMI ไม่เพียงแต่เพื่อวัตถุประสงค์ในการฝึกอบรมเท่านั้น แต่ยังเพื่อซ่อนการละเมิดลิขสิทธิ์ด้วย เนื่องจากการลอก CMI ของผลงานที่มีลิขสิทธิ์จะป้องกันไม่ให้ Llama ส่งออกข้อมูลลิขสิทธิ์ที่อาจแจ้งเตือนผู้ใช้ Llama และสาธารณชนให้ทราบ การละเมิดของ Meta”

Yann LeCun หัวหน้านักวิทยาศาสตร์ AI ของ Meta เมื่อปีที่แล้วได้ให้คำแนะนำว่า Meta คิดอย่างไรเกี่ยวกับเนื้อหาที่มีลิขสิทธิ์เมื่อเขาแนะนำบน X (ชื่อเดิมคือ Twitter) ผู้เขียนหนังสือควรเผยแพร่ผลงานของตนอย่างเสรี

มีผู้เขียนหนังสือเพียงไม่กี่คนเท่านั้นที่สร้างรายได้จำนวนมากจากการขายหนังสือ
สิ่งนี้ดูเหมือนจะชี้ให้เห็นว่าหนังสือส่วนใหญ่ควรมีให้ดาวน์โหลดได้ฟรี.
รายได้ที่สูญเสียไปสำหรับผู้เขียนจะมีเพียงเล็กน้อย และผลประโยชน์ต่อสังคมจะยิ่งใหญ่เมื่อเปรียบเทียบ https://t.co/4ObkW1tm85

— ยานน์ เลอคุน (@ylecun) 1 มกราคม 2024

ผลกระทบทางกฎหมายและจริยธรรม

ข้อโต้แย้งทางกฎหมายต่อ Meta รวมถึงการเรียกร้องภายใต้ DMCA สำหรับการลบ CMI และ CDAFA สำหรับการเข้าถึงและการใช้งานที่ละเมิดลิขสิทธิ์ ข้อมูลโดยไม่ได้รับอนุญาต โจทก์กล่าวหาว่าการลบทอร์เรนต์และการลบข้อมูลเมตาของ Meta เป็นส่วนสำคัญในการปกปิดการใช้เนื้อหาที่มีลิขสิทธิ์

ผู้พิพากษา Vince Chhabria ซึ่งดูแลคดีนี้ วิพากษ์วิจารณ์ความพยายามของ Meta ในการแก้ไขส่วนสำคัญในการยื่นฟ้อง โดยระบุว่า”เป็นที่ชัดเจนว่าคำขอปิดผนึกของ Meta ไม่ได้ออกแบบมาเพื่อป้องกันการเปิดเผยข้อมูลทางธุรกิจที่ละเอียดอ่อน… แต่ มันถูกออกแบบมาเพื่อหลีกเลี่ยงการประชาสัมพันธ์เชิงลบ”

ข้อกล่าวหาต่อ Meta เป็นส่วนหนึ่งของการสนทนาที่กว้างขึ้นเกี่ยวกับวิธีการฝึกอบรมโมเดล AI โมเดลภาษาขนาดใหญ่เช่น Llama มักจะพึ่งพาขนาดใหญ่ ชุดข้อมูลที่อาจมีเนื้อหาที่มีลิขสิทธิ์

ในขณะที่บริษัทอย่าง Meta โต้แย้งว่าการใช้งานดังกล่าวอยู่ภายใต้การใช้งานโดยชอบ นักวิจารณ์ยืนยันว่าเป็นการละเมิดสิทธิ์ของผู้สร้าง และเน้นย้ำถึงความจำเป็นสำหรับกรอบกฎหมายที่ชัดเจนยิ่งขึ้นในการพัฒนา AI/p>

บริบทของอุตสาหกรรมที่กว้างขึ้น

คดีนี้ไม่ใช่เหตุการณ์เดี่ยวๆ การพัฒนาอย่างรวดเร็วของ generative AI ได้นำไปสู่การฟ้องร้องบริษัทเทคโนโลยีรายใหญ่หลายคดี ผู้สร้างและผู้ถือลิขสิทธิ์ตั้งคำถามถึงความถูกต้องตามกฎหมายและจริยธรรมในการใช้ผลงานของตนโดยไม่ได้รับความยินยอม

กรณีของ Meta สะท้อนให้เห็นถึงความตึงเครียดในวงกว้างระหว่างนวัตกรรมทางเทคโนโลยีและกฎหมายทรัพย์สินทางปัญญา คดีความดังกล่าวยังให้ความกระจ่างเกี่ยวกับการตัดสินใจในการดำเนินงานภายใน Meta ซึ่งการผลักดันเพื่อรักษาความสามารถในการแข่งขันใน AI ดูเหมือนจะมีมากกว่าการพิจารณาด้านจริยธรรมและกฎหมาย

แนวทางปฏิบัติของ Meta ทำให้เกิดคำถามเกี่ยวกับวิธีที่บริษัทต่างๆ สร้างสมดุลระหว่างนวัตกรรมกับการปฏิบัติตามกฎระเบียบและความรับผิดชอบ คดีนี้อาจเป็นตัวอย่างสำหรับวิธีที่ศาลจัดการกับการใช้เนื้อหาที่มีลิขสิทธิ์ในการฝึกอบรม AI ซึ่งอาจส่งผลต่อกฎระเบียบและมาตรฐานอุตสาหกรรม

Published by All Things Windows on January 10, 2025

การอนุมัติแม้จะมีการคัดค้านภายใน

การลบฝนตกหนักและการลบข้อมูลเมตา

ผลกระทบทางกฎหมายและจริยธรรม

บริบทของอุตสาหกรรมที่กว้างขึ้น

IT Info

วิธีสร้างโฟลเดอร์แชร์ที่ซ่อนอยู่ใน Windows 11 และ 10

IT Info

Cohere เปิดตัวแพลตฟอร์ม AI เหนือ ท้าทาย Microsoft และ Google ใน Enterprise AI

IT Info

OpenAI ตัด Dev ใครสร้างปืนไรเฟิล Sentry หุ่นยนต์ที่ขับเคลื่อนด้วย ChatGPT

Published by All Things Windows on January 10, 2025

การอนุมัติแม้จะมีการคัดค้านภายใน

การลบฝนตกหนักและการลบข้อมูลเมตา

ผลกระทบทางกฎหมายและจริยธรรม

บริบทของอุตสาหกรรมที่กว้างขึ้น

Related Posts

IT Info

วิธีสร้างโฟลเดอร์แชร์ที่ซ่อนอยู่ใน Windows 11 และ 10

IT Info

Cohere เปิดตัวแพลตฟอร์ม AI เหนือ ท้าทาย Microsoft และ Google ใน Enterprise AI

IT Info

OpenAI ตัด Dev ใครสร้างปืนไรเฟิล Sentry หุ่นยนต์ที่ขับเคลื่อนด้วย ChatGPT