Meta Platforms อยู่ภายใต้การตรวจสอบทางกฎหมายอย่างเข้มงวดเนื่องจากถูกกล่าวหาว่าใช้สื่อละเมิดลิขสิทธิ์ในการฝึกโมเดล Llama AI บริษัทที่นำโดย Mark Zuckerberg ซีอีโอ ถูกกล่าวหาว่าใช้ชุดข้อมูลที่ไม่ได้รับอนุญาตจาก LibGen ซึ่งเป็นแหล่งหนังสือละเมิดลิขสิทธิ์ที่มีชื่อเสียง และบทความทางวิชาการ

เอกสารที่ยื่นใหม่สำหรับการฟ้องร้องในศาลแขวงสหรัฐประจำเขตทางตอนเหนือของรัฐแคลิฟอร์เนีย (เอกสาร 1, เอกสาร 2) อ้างว่า Zuckerberg อนุมัติชุดข้อมูลโดยตรง การใช้งาน แม้จะมีคำเตือนภายในเกี่ยวกับความถูกต้องตามกฎหมายก็ตาม

ผู้เขียนที่มีชื่อเสียง รวมถึง Sarah Silverman และ Ta-Nehisi Coates เป็นหนึ่งในโจทก์ โดยให้เหตุผลว่าการกระทำของ Meta ละเมิดกฎหมายลิขสิทธิ์และ Digital Millennium Copyright Act (DMCA).

พวกเขายังกล่าวหาว่ามีการละเมิด คอมพิวเตอร์ที่ครอบคลุมของแคลิฟอร์เนีย พระราชบัญญัติการเข้าถึงข้อมูลและการฉ้อโกง (CDAFA) ชี้ไปที่กิจกรรมฝนตกหนักและการแยกข้อมูลเมตาที่ปกปิดที่มาของข้อมูล

ทอร์เรนต์เป็นเทคโนโลยีการแบ่งปันไฟล์แบบ peer-to-peer ที่อนุญาตให้ผู้ใช้ดาวน์โหลดไฟล์ในส่วนเล็กๆ จากหลายแหล่ง แม้ว่าจะมีประสิทธิภาพในการแชร์ชุดข้อมูลขนาดใหญ่ แต่ก็มักจะใช้สำหรับการกระจายเนื้อหาที่ละเมิดลิขสิทธิ์ เนื่องจากมีการกระจายอำนาจและยากต่อการตรวจสอบ

ที่เกี่ยวข้อง: Meta ยอมรับการแตะข้อมูลผู้ใช้ Facebook ของออสเตรเลียสำหรับ AI การฝึกอบรมโดยไม่ได้รับความยินยอม

การอนุมัติแม้จะมีการคัดค้านภายใน

เอกสารภายในและการสะสมเผยให้เห็นรูปแบบการตัดสินใจที่น่าหนักใจที่ Meta วิศวกรแสดงความกังวลเกี่ยวกับการใช้ LibGen โดยมีข้อความหนึ่งระบุว่า”การ Torrent จากแล็ปท็อปขององค์กร [Meta ที่เป็นเจ้าของ] รู้สึกไม่เหมาะสม”

การคัดค้านเหล่านี้ได้รับการยกระดับไปยัง Zuckerberg ซึ่งท้ายที่สุดก็อนุมัติชุดข้อมูล การใช้งาน บันทึกภายในยืนยันว่า “หลังจากการส่งต่อไปยัง MZ [Mark Zuckerberg] ทีม AI ของ Meta ได้รับการอนุมัติให้ใช้ LibGen”

การอนุมัตินี้เกิดขึ้นเมื่อ Meta ต้องการ เพิ่มขีดความสามารถของโมเดล Llama ซึ่งเป็นส่วนสำคัญของกลยุทธ์ในการแข่งขันในภาค AI ที่ก้าวหน้าอย่างรวดเร็ว มีรายงานว่าชุดข้อมูล LibGen ใช้สำหรับการฝึกอบรมและการปรับแต่งโมเดลอย่างละเอียด โดยให้ข้อมูลขนาดใหญ่ที่จำเป็นในการพัฒนาความสามารถในการประมวลผลภาษา

ที่เกี่ยวข้อง: ผู้ใช้ออกจาก Facebook Instagram กระทู้หลังจากการกลับรายการการตรวจสอบข้อเท็จจริงของ Zuckerberg

การลบฝนตกหนักและการลบข้อมูลเมตา

คดีกล่าวหาว่า Meta ใช้โปรโตคอลฝนตกหนักเพื่อเข้าถึง และแจกจ่ายชุดข้อมูล LibGen การทอร์เรนต์โดยเนื้อแท้เกี่ยวข้องกับการ”เพาะ”หรือการแชร์เนื้อหาที่ดาวน์โหลดบางส่วนกับผู้ใช้รายอื่น

ตามคำให้การ วิศวกร Meta ได้กำหนดค่าการตั้งค่าการทอร์เรนต์เพื่อลดการมองเห็น ดังที่ระบุไว้ในการยื่นฟ้องของศาล”Bashlykov กำหนดค่า [ทอร์เรนต์”] การตั้งค่าเพื่อให้เกิด seeding ในปริมาณน้อยที่สุด”ซึ่งเป็นความพยายามที่จะหลีกเลี่ยงการตรวจพบในขณะที่ยังคงมีส่วนร่วมในเครือข่ายการแชร์ไฟล์

นอกเหนือจากการทอร์เรนต์แล้ว Meta มีรายงานว่าถูกถอด ข้อมูลการจัดการลิขสิทธิ์ (CMI) จากชุดข้อมูลการฝึกอบรม CMI มีข้อมูลเมตาที่แนบมากับงานที่มีลิขสิทธิ์ซึ่งรวมถึงรายละเอียด เช่น ชื่อผู้แต่ง วันที่ตีพิมพ์ และข้อมูลใบอนุญาต การนำ CMI ออกนั้นผิดกฎหมายภายใต้ DMCA หากเอื้อต่อการละเมิดลิขสิทธิ์

โจทก์โต้แย้งว่าการลบนี้เป็นการกระทำโดยเจตนาเพื่อปิดบังต้นกำเนิดของชุดข้อมูล และป้องกันไม่ให้โมเดล Llama แสดงเนื้อหาที่มีลิขสิทธิ์ที่สามารถระบุตัวตนได้

ตามคำฟ้องระบุว่า “Meta ปล้น CMI ไม่เพียงแต่เพื่อวัตถุประสงค์ในการฝึกอบรมเท่านั้น แต่ยังเพื่อซ่อนการละเมิดลิขสิทธิ์ด้วย เนื่องจากการลอก CMI ของผลงานที่มีลิขสิทธิ์จะป้องกันไม่ให้ Llama ส่งออกข้อมูลลิขสิทธิ์ที่อาจแจ้งเตือนผู้ใช้ Llama และสาธารณชนให้ทราบ การละเมิดของ Meta”

Yann LeCun หัวหน้านักวิทยาศาสตร์ AI ของ Meta เมื่อปีที่แล้วได้ให้คำแนะนำว่า Meta คิดอย่างไรเกี่ยวกับเนื้อหาที่มีลิขสิทธิ์เมื่อเขาแนะนำบน X (ชื่อเดิมคือ Twitter) ผู้เขียนหนังสือควรเผยแพร่ผลงานของตนอย่างเสรี

มีผู้เขียนหนังสือเพียงไม่กี่คนเท่านั้นที่สร้างรายได้จำนวนมากจากการขายหนังสือ
สิ่งนี้ดูเหมือนจะชี้ให้เห็นว่าหนังสือส่วนใหญ่ควรมีให้ดาวน์โหลดได้ฟรี.
รายได้ที่สูญเสียไปสำหรับผู้เขียนจะมีเพียงเล็กน้อย และผลประโยชน์ต่อสังคมจะยิ่งใหญ่เมื่อเปรียบเทียบ https://t.co/4ObkW1tm85

— ยานน์ เลอคุน (@ylecun) 1 มกราคม 2024

ผลกระทบทางกฎหมายและจริยธรรม

ข้อโต้แย้งทางกฎหมายต่อ Meta รวมถึงการเรียกร้องภายใต้ DMCA สำหรับการลบ CMI และ CDAFA สำหรับการเข้าถึงและการใช้งานที่ละเมิดลิขสิทธิ์ ข้อมูลโดยไม่ได้รับอนุญาต โจทก์กล่าวหาว่าการลบทอร์เรนต์และการลบข้อมูลเมตาของ Meta เป็นส่วนสำคัญในการปกปิดการใช้เนื้อหาที่มีลิขสิทธิ์

ผู้พิพากษา Vince Chhabria ซึ่งดูแลคดีนี้ วิพากษ์วิจารณ์ความพยายามของ Meta ในการแก้ไขส่วนสำคัญในการยื่นฟ้อง โดยระบุว่า”เป็นที่ชัดเจนว่าคำขอปิดผนึกของ Meta ไม่ได้ออกแบบมาเพื่อป้องกันการเปิดเผยข้อมูลทางธุรกิจที่ละเอียดอ่อน… แต่ มันถูกออกแบบมาเพื่อหลีกเลี่ยงการประชาสัมพันธ์เชิงลบ”

ข้อกล่าวหาต่อ Meta เป็นส่วนหนึ่งของการสนทนาที่กว้างขึ้นเกี่ยวกับวิธีการฝึกอบรมโมเดล AI โมเดลภาษาขนาดใหญ่เช่น Llama มักจะพึ่งพาขนาดใหญ่ ชุดข้อมูลที่อาจมีเนื้อหาที่มีลิขสิทธิ์

ในขณะที่บริษัทอย่าง Meta โต้แย้งว่าการใช้งานดังกล่าวอยู่ภายใต้การใช้งานโดยชอบ นักวิจารณ์ยืนยันว่าเป็นการละเมิดสิทธิ์ของผู้สร้าง และเน้นย้ำถึงความจำเป็นสำหรับกรอบกฎหมายที่ชัดเจนยิ่งขึ้นในการพัฒนา AI/p>

บริบทของอุตสาหกรรมที่กว้างขึ้น

คดีนี้ไม่ใช่เหตุการณ์เดี่ยวๆ การพัฒนาอย่างรวดเร็วของ generative AI ได้นำไปสู่การฟ้องร้องบริษัทเทคโนโลยีรายใหญ่หลายคดี ผู้สร้างและผู้ถือลิขสิทธิ์ตั้งคำถามถึงความถูกต้องตามกฎหมายและจริยธรรมในการใช้ผลงานของตนโดยไม่ได้รับความยินยอม

กรณีของ Meta สะท้อนให้เห็นถึงความตึงเครียดในวงกว้างระหว่างนวัตกรรมทางเทคโนโลยีและกฎหมายทรัพย์สินทางปัญญา คดีความดังกล่าวยังให้ความกระจ่างเกี่ยวกับการตัดสินใจในการดำเนินงานภายใน Meta ซึ่งการผลักดันเพื่อรักษาความสามารถในการแข่งขันใน AI ดูเหมือนจะมีมากกว่าการพิจารณาด้านจริยธรรมและกฎหมาย

แนวทางปฏิบัติของ Meta ทำให้เกิดคำถามเกี่ยวกับวิธีที่บริษัทต่างๆ สร้างสมดุลระหว่างนวัตกรรมกับการปฏิบัติตามกฎระเบียบและความรับผิดชอบ คดีนี้อาจเป็นตัวอย่างสำหรับวิธีที่ศาลจัดการกับการใช้เนื้อหาที่มีลิขสิทธิ์ในการฝึกอบรม AI ซึ่งอาจส่งผลต่อกฎระเบียบและมาตรฐานอุตสาหกรรม

Categories: IT Info