GitHub-Project เสนอให้บล็อกโปรแกรมรวบรวมข้อมูลเว็บ AI ที่รู้จักทั้งหมดผ่าน ROBOTS.TXT

โปรเจ็กต์ที่โฮสต์โดย GitHub นำเสนอไฟล์ robots.txt ที่ได้รับการดูแลจัดการ ซึ่งออกแบบมาเพื่อบล็อกโปรแกรมรวบรวมข้อมูล AI ที่รู้จักไม่ให้เข้าถึงเนื้อหาเว็บไซต์

ความคิดริเริ่มที่เรียกว่า ai.robots.txt มีวัตถุประสงค์เพื่อปกป้องสื่อออนไลน์ จากการถูกใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) โดยไม่ได้รับอนุญาต

ด้วยการนำเสนอไฟล์ง่ายๆ ที่แสดงรายการโปรแกรมรวบรวมข้อมูล AI ที่รู้จักซึ่งกำหนดค่าไว้สำหรับการบล็อก โครงการนี้ขอเชิญชวนนักพัฒนาให้ควบคุมข้อมูลของตนได้มากขึ้น และสนับสนุนให้บริษัท AI ปฏิบัติตามหลักปฏิบัติด้านจริยธรรม

โครงการนี้สะท้อนให้เห็นถึงความไม่พอใจที่เพิ่มมากขึ้นในหมู่นักพัฒนาและผู้เผยแพร่กับ วิธีการทึบแสงที่ระบบ AI ใช้เพื่อรวบรวมข้อมูลการฝึกอบรม แม้ว่าจะไม่สามารถบังคับใช้การปฏิบัติตามข้อกำหนดได้ แต่ robots.txt ที่ได้รับการดูแลจัดการก็ให้ความสำคัญกับความรับผิดชอบด้านจริยธรรมของบริษัท AI เนื่องจากเทคโนโลยีของบริษัทเปลี่ยนโฉมอินเทอร์เน็ต

วิธีการทำงานของ Curated Robots.txt

ไฟล์ robots.txt ที่นำเสนอประกอบด้วยรายการโอเพ่นซอร์สของชื่อตัวแทนผู้ใช้ที่เกี่ยวข้องกับโปรแกรมรวบรวมข้อมูล AI ซึ่งส่วนหนึ่งมาจาก Dark Visitors ซึ่งเป็นโครงการริเริ่มที่ติดตามกิจกรรมของบอท

นักพัฒนาได้รับการสนับสนุนให้สนับสนุนการอัปเดตโดยส่งคำขอดึงบน GitHub เพื่อให้แน่ใจว่ารายการยังคงเป็นปัจจุบันเมื่อมีบอทใหม่เกิดขึ้น แม้ว่าจะต้องอาศัยการปฏิบัติตามความสมัครใจของบริษัท AI แต่โครงการนี้ก็มอบเครื่องมือที่จำเป็นมากสำหรับเจ้าของไซต์ที่ต้องการจัดการวิธีการเข้าถึงและใช้งานเนื้อหาของตน

แม้ว่าไฟล์ robots.txt ที่ดูแลจัดการจะมอบเครื่องมืออันทรงคุณค่า สำหรับนักพัฒนา ประสิทธิภาพจะถูกจำกัดด้วยการพึ่งพาการปฏิบัติตามโดยสมัครใจ โปรแกรมรวบรวมข้อมูล AI จำนวนมากทำงานนอกขอบเขตทางจริยธรรมที่โปรแกรมรวบรวมข้อมูลเว็บแบบดั้งเดิมเช่น Googlebot เคารพ

เทคนิคขั้นสูง เช่น การเรียกดูแบบไม่มีหัว ซึ่งช่วยให้บอทสามารถเลียนแบบพฤติกรรมของมนุษย์ ทำให้ระบุและบล็อกการเข้าถึงที่ไม่ได้รับอนุญาตได้ยากขึ้น

มาตรการฝั่งเซิร์ฟเวอร์ เช่น การบล็อก IP และการปรับแต่ง กฎไฟร์วอลล์ให้การป้องกันเพิ่มเติมแต่ไม่สามารถป้องกันความผิดพลาดได้

โปรแกรมรวบรวมข้อมูลจำนวนมากขึ้นเรื่อยๆ กำลังเก็บเกี่ยวสำหรับ AI

โปรแกรมรวบรวมข้อมูล Bing ของ Microsoft มีรายงานว่าเคารพ robots.txt สำหรับดัชนีการค้นหา ดังที่เห็นได้ชัดเจนเมื่อ Reddit เริ่มนำเสนอเนื้อหาของตนให้กับ Google โดยเฉพาะ และบล็อกเครื่องมือค้นหาอื่นๆ เช่น Bing และ DuckDuckGo อย่างไรก็ตาม นี่เป็นเรื่องเกี่ยวกับการรวบรวมข้อมูลหน้าเว็บเพื่อค้นหาและไม่ใช่การฝึกอบรม Large Language Models (LLM) เป็นหลัก

ดังที่แสดงให้เห็นในกรณีของ Meta บริษัทเทคโนโลยีขนาดใหญ่ไม่ได้อายที่จะใช้กลยุทธ์ลับๆ เพื่อรับข้อมูล การฝึกอบรม AI ของพวกเขา มีรายงานว่าบริษัทใช้ชุดข้อมูลที่ไม่ได้รับอนุญาตกับหนังสือและบทความทางวิชาการที่ละเมิดลิขสิทธิ์

ผู้สร้าง YouTube ได้รับผลกระทบในลักษณะเดียวกัน ดังที่มีการฟ้องร้องดำเนินคดีกับบริษัทในเครือของ Google และ Nvidia ซึ่งกล่าวหาว่าใช้วิดีโอโดยไม่ได้รับอนุญาตสำหรับการฝึกอบรม AI

Perplexity AI: กรณีที่มีปัญหาด้านการปฏิบัติตามข้อกำหนด

ความจำเป็นในการบล็อกบ็อตการรวบรวมข้อมูลขั้นสูงปรากฏชัดเจนเป็นพิเศษในปีที่แล้วผ่านเหตุการณ์ที่เกี่ยวข้องกับ Perplexity AI นักพัฒนา Robb Knight เปิดเผยว่า Perplexity AI เข้าถึงเนื้อหาจากเว็บไซต์ Radweb และ MacStories ของเขา แม้ว่าจะมีคำสั่ง robots.txt ที่ชัดเจนและการบล็อกฝั่งเซิร์ฟเวอร์ที่กำหนดค่าให้ส่งคืนการตอบสนอง “403 Forbidden” ก็ตาม

การวิเคราะห์บันทึกของเซิร์ฟเวอร์เปิดเผย PerplexityBot ใช้เทคนิคหลอกลวงเพื่อหลีกเลี่ยงข้อจำกัด เช่น การทำงานผ่านเบราว์เซอร์แบบไม่มีส่วนหัวและการปกปิดตัวตนด้วยสตริงตัวแทนผู้ใช้ทั่วไป เช่น Google Chrome บน Windows

วิธีการเหล่านี้ช่วยให้หลบเลี่ยงการตรวจจับได้ในขณะที่คัดลอกเนื้อหาที่ถูกจำกัด ในตอนแรก Perplexity AI ปฏิเสธความสามารถในการหลีกเลี่ยงข้อจำกัดเหล่านี้ อย่างไรก็ตาม พวกเขายอมรับในภายหลังว่ามีการละเมิดจริยธรรม โดยระบุว่า”การสรุปเนื้อหาที่ถูกจำกัดไม่ควรเกิดขึ้น”

Federico Viticci จาก MacStories ยืนยันการค้นพบของ Knight โดยอธิบายว่ามีการใช้มาตรการระดับเซิร์ฟเวอร์เพิ่มเติมเพื่อบล็อก PerplexityBot อย่างไรก็ตาม แม้แต่การป้องกันขั้นสูงเหล่านี้ก็ไม่สามารถป้องกันความผิดพลาดได้ โดยเน้นถึงความยากลำบากในการรับรองการปฏิบัติตามมาตรฐานทางจริยธรรมในการรวบรวมข้อมูลเว็บ

ในกรณีของ Perplexity AI นั้น Knight ตั้งข้อสังเกตว่าช่วง IP ไม่ตรงกับบริษัทที่เป็นที่รู้จักในสาธารณะ ที่อยู่ ทำให้ความพยายามบังคับใช้ซับซ้อนยิ่งขึ้น สิ่งนี้เน้นย้ำถึงความจำเป็นในการใช้เครื่องมือที่แข็งแกร่งและกรอบการกำกับดูแลมากขึ้นเพื่อจัดการกับความท้าทายที่เกิดจากบอท AI ที่มีความซับซ้อนมากขึ้น

อย่างไรก็ตาม ความซับซ้อนไม่ได้เกิดขึ้นเพียงลำพังในแนวทางปฏิบัตินี้ เนื่องจากจำนวนคดีฟ้องร้องด้านลิขสิทธิ์ที่ฟ้องร้องนักพัฒนา AI มีจำนวนเพิ่มมากขึ้น The New York Times มีส่วนเกี่ยวข้องในการฟ้องร้อง Microsoft และ OpenAI เกี่ยวกับการขโมยเนื้อหาซึ่งมีราคาแพง

คดีนี้เป็นเพียงตัวอย่างหนึ่งของความไม่พอใจที่เพิ่มมากขึ้นในหมู่สื่อต่างๆ ซึ่งเรียกร้องให้มีมาตรฐานที่เข้มงวดมากขึ้นเพื่อควบคุม AI การรวบรวมข้อมูล

GitHub-Project เสนอให้บล็อกโปรแกรมรวบรวมข้อมูลเว็บ AI ที่รู้จักทั้งหมดผ่าน ROBOTS.TXT

Published by All Things Windows on January 14, 2025

วิธีการทำงานของ Curated Robots.txt

โปรแกรมรวบรวมข้อมูลจำนวนมากขึ้นเรื่อยๆ กำลังเก็บเกี่ยวสำหรับ AI

Perplexity AI: กรณีที่มีปัญหาด้านการปฏิบัติตามข้อกำหนด

IT Info

วิธีแชร์ไฟล์จาก Android ไปยัง Windows 11

IT Info

การอัปเดต Windows 11, 10 มกราคม 2025 มาพร้อมกับ KB5050009, KB5050021, KB5049981

IT Info

วิธีเปลี่ยนโฟลเดอร์ดาวน์โหลดลิงค์โทรศัพท์ใน Windows 11

GitHub-Project เสนอให้บล็อกโปรแกรมรวบรวมข้อมูลเว็บ AI ที่รู้จักทั้งหมดผ่าน ROBOTS.TXT

Published by All Things Windows on January 14, 2025

วิธีการทำงานของ Curated Robots.txt

โปรแกรมรวบรวมข้อมูลจำนวนมากขึ้นเรื่อยๆ กำลังเก็บเกี่ยวสำหรับ AI

Perplexity AI: กรณีที่มีปัญหาด้านการปฏิบัติตามข้อกำหนด

Related Posts

IT Info

วิธีแชร์ไฟล์จาก Android ไปยัง Windows 11

IT Info

การอัปเดต Windows 11, 10 มกราคม 2025 มาพร้อมกับ KB5050009, KB5050021, KB5049981

IT Info

วิธีเปลี่ยนโฟลเดอร์ดาวน์โหลดลิงค์โทรศัพท์ใน Windows 11