โปรเจ็กต์ที่โฮสต์โดย GitHub นำเสนอไฟล์ robots.txt ที่ได้รับการดูแลจัดการ ซึ่งออกแบบมาเพื่อบล็อกโปรแกรมรวบรวมข้อมูล AI ที่รู้จักไม่ให้เข้าถึงเนื้อหาเว็บไซต์
ความคิดริเริ่มที่เรียกว่า ai.robots.txt มีวัตถุประสงค์เพื่อปกป้องสื่อออนไลน์ จากการถูกใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLM) โดยไม่ได้รับอนุญาต
ด้วยการนำเสนอไฟล์ง่ายๆ ที่แสดงรายการโปรแกรมรวบรวมข้อมูล AI ที่รู้จักซึ่งกำหนดค่าไว้สำหรับการบล็อก โครงการนี้ขอเชิญชวนนักพัฒนาให้ควบคุมข้อมูลของตนได้มากขึ้น และสนับสนุนให้บริษัท AI ปฏิบัติตามหลักปฏิบัติด้านจริยธรรม
โครงการนี้สะท้อนให้เห็นถึงความไม่พอใจที่เพิ่มมากขึ้นในหมู่นักพัฒนาและผู้เผยแพร่กับ วิธีการทึบแสงที่ระบบ AI ใช้เพื่อรวบรวมข้อมูลการฝึกอบรม แม้ว่าจะไม่สามารถบังคับใช้การปฏิบัติตามข้อกำหนดได้ แต่ robots.txt ที่ได้รับการดูแลจัดการก็ให้ความสำคัญกับความรับผิดชอบด้านจริยธรรมของบริษัท AI เนื่องจากเทคโนโลยีของบริษัทเปลี่ยนโฉมอินเทอร์เน็ต
วิธีการทำงานของ Curated Robots.txt
ไฟล์ robots.txt ที่นำเสนอประกอบด้วยรายการโอเพ่นซอร์สของชื่อตัวแทนผู้ใช้ที่เกี่ยวข้องกับโปรแกรมรวบรวมข้อมูล AI ซึ่งส่วนหนึ่งมาจาก Dark Visitors ซึ่งเป็นโครงการริเริ่มที่ติดตามกิจกรรมของบอท
นักพัฒนาได้รับการสนับสนุนให้สนับสนุนการอัปเดตโดยส่งคำขอดึงบน GitHub เพื่อให้แน่ใจว่ารายการยังคงเป็นปัจจุบันเมื่อมีบอทใหม่เกิดขึ้น แม้ว่าจะต้องอาศัยการปฏิบัติตามความสมัครใจของบริษัท AI แต่โครงการนี้ก็มอบเครื่องมือที่จำเป็นมากสำหรับเจ้าของไซต์ที่ต้องการจัดการวิธีการเข้าถึงและใช้งานเนื้อหาของตน
แม้ว่าไฟล์ robots.txt ที่ดูแลจัดการจะมอบเครื่องมืออันทรงคุณค่า สำหรับนักพัฒนา ประสิทธิภาพจะถูกจำกัดด้วยการพึ่งพาการปฏิบัติตามโดยสมัครใจ โปรแกรมรวบรวมข้อมูล AI จำนวนมากทำงานนอกขอบเขตทางจริยธรรมที่โปรแกรมรวบรวมข้อมูลเว็บแบบดั้งเดิมเช่น Googlebot เคารพ
เทคนิคขั้นสูง เช่น การเรียกดูแบบไม่มีหัว ซึ่งช่วยให้บอทสามารถเลียนแบบพฤติกรรมของมนุษย์ ทำให้ระบุและบล็อกการเข้าถึงที่ไม่ได้รับอนุญาตได้ยากขึ้น
มาตรการฝั่งเซิร์ฟเวอร์ เช่น การบล็อก IP และการปรับแต่ง กฎไฟร์วอลล์ให้การป้องกันเพิ่มเติมแต่ไม่สามารถป้องกันความผิดพลาดได้
โปรแกรมรวบรวมข้อมูลจำนวนมากขึ้นเรื่อยๆ กำลังเก็บเกี่ยวสำหรับ AI
โปรแกรมรวบรวมข้อมูล Bing ของ Microsoft มีรายงานว่าเคารพ robots.txt สำหรับดัชนีการค้นหา ดังที่เห็นได้ชัดเจนเมื่อ Reddit เริ่มนำเสนอเนื้อหาของตนให้กับ Google โดยเฉพาะ และบล็อกเครื่องมือค้นหาอื่นๆ เช่น Bing และ DuckDuckGo อย่างไรก็ตาม นี่เป็นเรื่องเกี่ยวกับการรวบรวมข้อมูลหน้าเว็บเพื่อค้นหาและไม่ใช่การฝึกอบรม Large Language Models (LLM) เป็นหลัก
ดังที่แสดงให้เห็นในกรณีของ Meta บริษัทเทคโนโลยีขนาดใหญ่ไม่ได้อายที่จะใช้กลยุทธ์ลับๆ เพื่อรับข้อมูล การฝึกอบรม AI ของพวกเขา มีรายงานว่าบริษัทใช้ชุดข้อมูลที่ไม่ได้รับอนุญาตกับหนังสือและบทความทางวิชาการที่ละเมิดลิขสิทธิ์
ผู้สร้าง YouTube ได้รับผลกระทบในลักษณะเดียวกัน ดังที่มีการฟ้องร้องดำเนินคดีกับบริษัทในเครือของ Google และ Nvidia ซึ่งกล่าวหาว่าใช้วิดีโอโดยไม่ได้รับอนุญาตสำหรับการฝึกอบรม AI
Perplexity AI: กรณีที่มีปัญหาด้านการปฏิบัติตามข้อกำหนด
ความจำเป็นในการบล็อกบ็อตการรวบรวมข้อมูลขั้นสูงปรากฏชัดเจนเป็นพิเศษในปีที่แล้วผ่านเหตุการณ์ที่เกี่ยวข้องกับ Perplexity AI นักพัฒนา Robb Knight เปิดเผยว่า Perplexity AI เข้าถึงเนื้อหาจากเว็บไซต์ Radweb และ MacStories ของเขา แม้ว่าจะมีคำสั่ง robots.txt ที่ชัดเจนและการบล็อกฝั่งเซิร์ฟเวอร์ที่กำหนดค่าให้ส่งคืนการตอบสนอง “403 Forbidden” ก็ตาม
การวิเคราะห์บันทึกของเซิร์ฟเวอร์เปิดเผย PerplexityBot ใช้เทคนิคหลอกลวงเพื่อหลีกเลี่ยงข้อจำกัด เช่น การทำงานผ่านเบราว์เซอร์แบบไม่มีส่วนหัวและการปกปิดตัวตนด้วยสตริงตัวแทนผู้ใช้ทั่วไป เช่น Google Chrome บน Windows
วิธีการเหล่านี้ช่วยให้หลบเลี่ยงการตรวจจับได้ในขณะที่คัดลอกเนื้อหาที่ถูกจำกัด ในตอนแรก Perplexity AI ปฏิเสธความสามารถในการหลีกเลี่ยงข้อจำกัดเหล่านี้ อย่างไรก็ตาม พวกเขายอมรับในภายหลังว่ามีการละเมิดจริยธรรม โดยระบุว่า”การสรุปเนื้อหาที่ถูกจำกัดไม่ควรเกิดขึ้น”
Federico Viticci จาก MacStories ยืนยันการค้นพบของ Knight โดยอธิบายว่ามีการใช้มาตรการระดับเซิร์ฟเวอร์เพิ่มเติมเพื่อบล็อก PerplexityBot อย่างไรก็ตาม แม้แต่การป้องกันขั้นสูงเหล่านี้ก็ไม่สามารถป้องกันความผิดพลาดได้ โดยเน้นถึงความยากลำบากในการรับรองการปฏิบัติตามมาตรฐานทางจริยธรรมในการรวบรวมข้อมูลเว็บ
ในกรณีของ Perplexity AI นั้น Knight ตั้งข้อสังเกตว่าช่วง IP ไม่ตรงกับบริษัทที่เป็นที่รู้จักในสาธารณะ ที่อยู่ ทำให้ความพยายามบังคับใช้ซับซ้อนยิ่งขึ้น สิ่งนี้เน้นย้ำถึงความจำเป็นในการใช้เครื่องมือที่แข็งแกร่งและกรอบการกำกับดูแลมากขึ้นเพื่อจัดการกับความท้าทายที่เกิดจากบอท AI ที่มีความซับซ้อนมากขึ้น
อย่างไรก็ตาม ความซับซ้อนไม่ได้เกิดขึ้นเพียงลำพังในแนวทางปฏิบัตินี้ เนื่องจากจำนวนคดีฟ้องร้องด้านลิขสิทธิ์ที่ฟ้องร้องนักพัฒนา AI มีจำนวนเพิ่มมากขึ้น The New York Times มีส่วนเกี่ยวข้องในการฟ้องร้อง Microsoft และ OpenAI เกี่ยวกับการขโมยเนื้อหาซึ่งมีราคาแพง
คดีนี้เป็นเพียงตัวอย่างหนึ่งของความไม่พอใจที่เพิ่มมากขึ้นในหมู่สื่อต่างๆ ซึ่งเรียกร้องให้มีมาตรฐานที่เข้มงวดมากขึ้นเพื่อควบคุม AI การรวบรวมข้อมูล