Web Security Giant Cloudflare ได้กล่าวหาว่า บริษัท ค้นหา AI Perplexity ในการใช้“ stealth crawlers” ที่หลอกลวงเพื่อข้ามกฎของเว็บไซต์และเนื้อหาขูด ในรายงาน CloudFlare State Masks Masks บอทด้วยตัวตนของเบราว์เซอร์ทั่วไปเพื่อเพิกเฉยต่อบล็อกของผู้เผยแพร่
โดยอ้างถึงการละเมิดความน่าเชื่อถือทางอินเทอร์เน็ต CloudFlare ได้ลบความงุนงงออกจากโปรแกรมบอทที่ผ่านการตรวจสอบแล้ว การเคลื่อนไหวครั้งนี้นับเป็นการเพิ่มขึ้นอย่างมากในการต่อสู้ระหว่าง บริษัท AI และผู้สร้างเนื้อหาการวางกลยุทธ์การเติบโตที่ก้าวร้าวของ Perplexity ภายใต้การตรวจสอบอย่างเข้มข้น
Cloudflare กล่าวหาว่าน่างงงวยของ’การรวบรวมข้อมูลล่องหน’
การสอบสวนของ Cloudflare href=”https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/”target=”blank”> บล็อก 4 สิงหาคมโพสต์ ได้รับแจ้งจากการร้องเรียนของลูกค้า ผู้ใช้เหล่านี้รายงานว่าแม้จะใช้ทั้งคำสั่ง `robots.txt` และกฎไฟร์วอลล์เฉพาะเพื่อบล็อกซอฟต์แวร์รวบรวมข้อมูลที่ประกาศอย่างเป็นทางการของ Perplexity,` perplexitybot’และ “ ผู้ใช้ perplex-user’เนื้อหาของพวกเขายังคงเข้าถึงได้โดยบริการ AI src=”https://winbuzzer.com/wp-content/uploads/2025/05/perplexity-pro-labs.jpg”>
บริษัท รักษาความปลอดภัยอ้างว่า Perplexity ใช้วิธีการสองง่าม เมื่อตัวรวบรวมข้อมูลที่ประกาศไว้ถูกบล็อก บริษัท ดูเหมือนจะปรับใช้บอทที่ไม่ได้ประกาศซึ่งไม่มีตัวตนเว็บเบราว์เซอร์มาตรฐาน ตัวรวบรวมข้อมูลที่ซ่อนเร้นเหล่านี้ถูกสังเกตว่าหมุนผ่านที่อยู่ IP ที่ไม่อยู่ในรายการและแม้กระทั่งการเปลี่ยนระบบอิสระของพวกเขา (ASNS) ในสิ่งที่ CloudFlare อธิบายว่าเป็นความพยายามโดยเจตนาที่จะซ่อนกิจกรรมและการตั้งค่าของผู้จัดพิมพ์ (khtml เช่น gecko) Chrome/124.0.0.0 Safari/537.36 สตริงทั่วไปนี้ได้รับการออกแบบมาเพื่อผสมผสานกับการรับส่งข้อมูลของมนุษย์ปกติจากอุปกรณ์ MacOS โดยใช้โครเมี่ยมทำให้ยากต่อการบล็อกโดยไม่ส่งผลกระทบต่อผู้ใช้ที่ถูกกฎหมาย Cloudflare ระบุว่าพฤติกรรมนี้ละเมิดบรรทัดฐานการรวบรวมข้อมูลเว็บที่จัดตั้งขึ้นเช่นที่ระบุไว้ใน RFC 9309
เพื่อยืนยันพฤติกรรมนี้ทีมงานของ Cloudflare ได้ทำการทดลองที่ควบคุมได้ พวกเขาลงทะเบียนโดเมนใหม่ที่ยังไม่ได้รับการค้นพบที่เปิดเผยต่อสาธารณะและวางไฟล์ `robots.txt` ที่เข้มงวดอย่างมากบนพวกเขาทำให้พวกเขาไม่สามารถรวบรวมข้อมูลได้ทั้งหมด แม้จะมีข้อควรระวังเหล่านี้เมื่อพวกเขาสอบถาม AI ของ Perplexity เกี่ยวกับเนื้อหาลับในโดเมนเหล่านี้บริการให้ข้อมูลสรุปโดยละเอียดและถูกต้องซึ่งบ่งชี้ว่ามันประสบความสำเร็จในการข้ามบล็อก
ผู้เขียนรายงาน Gabriel Corral กล่าวว่า Cloudflare ตั้งข้อสังเกตว่ากิจกรรมนี้ถูกสังเกตข้ามโดเมนหลายหมื่นโดเมนจำนวนหลายล้านคำขอต่อวันและใช้การเรียนรู้ของเครื่องจักรเพื่อใช้ลายนิ้วมือและติดตามการรวบรวมข้อมูลที่หลีกเลี่ยงได้
ในรายงาน Cloudflare เปรียบเทียบพฤติกรรมนี้ ในระหว่างการทดสอบที่คล้ายกันการรวบรวมข้อมูล `quegpt-user` ของ Openai ดึงไฟล์` robots.txt` และหยุดกิจกรรมเมื่อไม่ได้รับอนุญาต นอกจากนี้ยังเป็นบล็อกระดับเครือข่ายซึ่ง CloudFlare อธิบายว่าเป็น”การตอบสนองที่เหมาะสม”สำหรับผู้ประกอบการบอทที่ประพฤติตัวดีซึ่งทำหน้าที่โดยสุจริต
รูปแบบของการโต้เถียงและผู้จัดพิมพ์ pushback
ในเดือนมิถุนายน 2567 นักพัฒนา Robb Knight ได้บันทึกรายละเอียดว่า บริษัท AI ได้คัดลอกไซต์ของเขา Radweb และ MacStories แม้ว่าเขาจะใช้กฎทั้ง `robots.txt` และบล็อกระดับเซิร์ฟเวอร์ที่เข้มงวดมากขึ้นโดยใช้ Nginx อัศวินค้นพบว่าบอทไม่ได้ใช้ตัวระบุที่ประกาศไว้ แต่เป็นตัวแทนผู้ใช้ทั่วไปในการหลีกเลี่ยงการป้องกันของเขา
การปฏิบัติของ บริษัท ยังได้รับการคุกคามทางกฎหมายจากองค์กรสื่อรายใหญ่ ในเดือนมิถุนายน 2568 บีบีซีขู่ว่าการดำเนินคดีทางกฎหมายเกี่ยวกับการละเมิดลิขสิทธิ์และอันตรายจากชื่อเสียงโดยอ้างว่าเป็นเรื่องน่าพิศวงทำซ้ำวารสารศาสตร์คำต่อคำ Perplexity ออกการโต้แย้งอย่างคมชัดเรียกการเรียกร้อง”ยักย้ายถ่ายเท”และกล่าวหาผู้ประกาศข่าวในการพยายามปกป้องการครอบงำตลาดของ Google สิ่งนี้เข้าร่วมรายการความท้าทายทางกฎหมายที่เพิ่มขึ้นจากสำนักพิมพ์เช่น New York Times และ News Corp.
ความขัดแย้งนี้เกิดขึ้นกับฉากหลังของสิ่งที่ผู้เผยแพร่จำนวนมากเห็นว่าเป็นวิกฤต Matthew Prince CEO ของ Cloudflare ได้เรียกการลดลงของปริมาณการอ้างอิงจาก AI ค้นหา“ ภัยคุกคามที่มีอยู่” ซึ่งเปิดเผยว่าอัตราส่วนของหน้าเว็บที่ถูกคัดลอกโดย AI ของมานุษยวิทยาต่อผู้เข้าชมที่ส่งกลับมาเป็น 60,000 ต่อหนึ่ง ความเชื่อมั่นนี้สะท้อนโดย Danielle Cofey ซีอีโอของ News/Media Alliance ซึ่งกล่าวว่า“ ลิงก์เป็นคุณภาพการไถ่ครั้งสุดท้ายของการค้นหาที่ให้การรับส่งข้อมูลและรายได้ของผู้เผยแพร่ตอนนี้ Google ใช้เนื้อหาโดยใช้กำลังและใช้มันโดยไม่กลับมา ก่อนที่จะดำเนินการกับความงุนงงล่าสุด บริษัท ได้ปรับใช้การตอบโต้ที่ซับซ้อนแล้ว สิ่งเหล่านี้รวมถึง“ AI Labyrinth” เครื่องมือหลอกลวงที่ดักจับบอทที่ไม่สอดคล้องในเขาวงกตของเนื้อหาปลอมเพื่อเสียทรัพยากรของพวกเขาและ“ จ่ายต่อการรวบรวมข้อมูล” ระบบที่อนุญาตให้ใช้ไซต์ที่เรียกเก็บเงินสำหรับการเข้าถึงโดยการฟื้นฟูความสามารถในการจ่ายเงินของ บริษัท การยกเลิกความคิดที่ว่า บริษัท AI นั้นมีพลังเกินกว่าที่จะหยุดเขามีชื่อเสียง“ และคุณกำลังบอกฉันฉันไม่สามารถหยุดคนโง่ด้วย C-corporation ใน Palo Alto ได้หรือไม่”