Cloudflare กล่าวหาว่าการใช้'stealth crawlers'เพื่อหลบเลี่ยงมาตรฐานเว็บ

Web Security Giant Cloudflare ได้กล่าวหาว่า บริษัท ค้นหา AI Perplexity ในการใช้“ stealth crawlers” ที่หลอกลวงเพื่อข้ามกฎของเว็บไซต์และเนื้อหาขูด ในรายงาน CloudFlare State Masks Masks บอทด้วยตัวตนของเบราว์เซอร์ทั่วไปเพื่อเพิกเฉยต่อบล็อกของผู้เผยแพร่

โดยอ้างถึงการละเมิดความน่าเชื่อถือทางอินเทอร์เน็ต CloudFlare ได้ลบความงุนงงออกจากโปรแกรมบอทที่ผ่านการตรวจสอบแล้ว การเคลื่อนไหวครั้งนี้นับเป็นการเพิ่มขึ้นอย่างมากในการต่อสู้ระหว่าง บริษัท AI และผู้สร้างเนื้อหาการวางกลยุทธ์การเติบโตที่ก้าวร้าวของ Perplexity ภายใต้การตรวจสอบอย่างเข้มข้น

Cloudflare กล่าวหาว่าน่างงงวยของ’การรวบรวมข้อมูลล่องหน’

การสอบสวนของ Cloudflare href=”https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/”target=”blank”> บล็อก 4 สิงหาคมโพสต์ ได้รับแจ้งจากการร้องเรียนของลูกค้า ผู้ใช้เหล่านี้รายงานว่าแม้จะใช้ทั้งคำสั่ง `robots.txt` และกฎไฟร์วอลล์เฉพาะเพื่อบล็อกซอฟต์แวร์รวบรวมข้อมูลที่ประกาศอย่างเป็นทางการของ Perplexity,` perplexitybot’และ “ ผู้ใช้ perplex-user’เนื้อหาของพวกเขายังคงเข้าถึงได้โดยบริการ AI src=”https://winbuzzer.com/wp-content/uploads/2025/05/perplexity-pro-labs.jpg”>

บริษัท รักษาความปลอดภัยอ้างว่า Perplexity ใช้วิธีการสองง่าม เมื่อตัวรวบรวมข้อมูลที่ประกาศไว้ถูกบล็อก บริษัท ดูเหมือนจะปรับใช้บอทที่ไม่ได้ประกาศซึ่งไม่มีตัวตนเว็บเบราว์เซอร์มาตรฐาน ตัวรวบรวมข้อมูลที่ซ่อนเร้นเหล่านี้ถูกสังเกตว่าหมุนผ่านที่อยู่ IP ที่ไม่อยู่ในรายการและแม้กระทั่งการเปลี่ยนระบบอิสระของพวกเขา (ASNS) ในสิ่งที่ CloudFlare อธิบายว่าเป็นความพยายามโดยเจตนาที่จะซ่อนกิจกรรมและการตั้งค่าของผู้จัดพิมพ์ (khtml เช่น gecko) Chrome/124.0.0.0 Safari/537.36 สตริงทั่วไปนี้ได้รับการออกแบบมาเพื่อผสมผสานกับการรับส่งข้อมูลของมนุษย์ปกติจากอุปกรณ์ MacOS โดยใช้โครเมี่ยมทำให้ยากต่อการบล็อกโดยไม่ส่งผลกระทบต่อผู้ใช้ที่ถูกกฎหมาย Cloudflare ระบุว่าพฤติกรรมนี้ละเมิดบรรทัดฐานการรวบรวมข้อมูลเว็บที่จัดตั้งขึ้นเช่นที่ระบุไว้ใน RFC 9309

เพื่อยืนยันพฤติกรรมนี้ทีมงานของ Cloudflare ได้ทำการทดลองที่ควบคุมได้ พวกเขาลงทะเบียนโดเมนใหม่ที่ยังไม่ได้รับการค้นพบที่เปิดเผยต่อสาธารณะและวางไฟล์ `robots.txt` ที่เข้มงวดอย่างมากบนพวกเขาทำให้พวกเขาไม่สามารถรวบรวมข้อมูลได้ทั้งหมด แม้จะมีข้อควรระวังเหล่านี้เมื่อพวกเขาสอบถาม AI ของ Perplexity เกี่ยวกับเนื้อหาลับในโดเมนเหล่านี้บริการให้ข้อมูลสรุปโดยละเอียดและถูกต้องซึ่งบ่งชี้ว่ามันประสบความสำเร็จในการข้ามบล็อก

ผู้เขียนรายงาน Gabriel Corral กล่าวว่า Cloudflare ตั้งข้อสังเกตว่ากิจกรรมนี้ถูกสังเกตข้ามโดเมนหลายหมื่นโดเมนจำนวนหลายล้านคำขอต่อวันและใช้การเรียนรู้ของเครื่องจักรเพื่อใช้ลายนิ้วมือและติดตามการรวบรวมข้อมูลที่หลีกเลี่ยงได้

ในรายงาน Cloudflare เปรียบเทียบพฤติกรรมนี้ ในระหว่างการทดสอบที่คล้ายกันการรวบรวมข้อมูล `quegpt-user` ของ Openai ดึงไฟล์` robots.txt` และหยุดกิจกรรมเมื่อไม่ได้รับอนุญาต นอกจากนี้ยังเป็นบล็อกระดับเครือข่ายซึ่ง CloudFlare อธิบายว่าเป็น”การตอบสนองที่เหมาะสม”สำหรับผู้ประกอบการบอทที่ประพฤติตัวดีซึ่งทำหน้าที่โดยสุจริต

รูปแบบของการโต้เถียงและผู้จัดพิมพ์ pushback

ในเดือนมิถุนายน 2567 นักพัฒนา Robb Knight ได้บันทึกรายละเอียดว่า บริษัท AI ได้คัดลอกไซต์ของเขา Radweb และ MacStories แม้ว่าเขาจะใช้กฎทั้ง `robots.txt` และบล็อกระดับเซิร์ฟเวอร์ที่เข้มงวดมากขึ้นโดยใช้ Nginx อัศวินค้นพบว่าบอทไม่ได้ใช้ตัวระบุที่ประกาศไว้ แต่เป็นตัวแทนผู้ใช้ทั่วไปในการหลีกเลี่ยงการป้องกันของเขา

การปฏิบัติของ บริษัท ยังได้รับการคุกคามทางกฎหมายจากองค์กรสื่อรายใหญ่ ในเดือนมิถุนายน 2568 บีบีซีขู่ว่าการดำเนินคดีทางกฎหมายเกี่ยวกับการละเมิดลิขสิทธิ์และอันตรายจากชื่อเสียงโดยอ้างว่าเป็นเรื่องน่าพิศวงทำซ้ำวารสารศาสตร์คำต่อคำ Perplexity ออกการโต้แย้งอย่างคมชัดเรียกการเรียกร้อง”ยักย้ายถ่ายเท”และกล่าวหาผู้ประกาศข่าวในการพยายามปกป้องการครอบงำตลาดของ Google สิ่งนี้เข้าร่วมรายการความท้าทายทางกฎหมายที่เพิ่มขึ้นจากสำนักพิมพ์เช่น New York Times และ News Corp.

ความขัดแย้งนี้เกิดขึ้นกับฉากหลังของสิ่งที่ผู้เผยแพร่จำนวนมากเห็นว่าเป็นวิกฤต Matthew Prince CEO ของ Cloudflare ได้เรียกการลดลงของปริมาณการอ้างอิงจาก AI ค้นหา“ ภัยคุกคามที่มีอยู่” ซึ่งเปิดเผยว่าอัตราส่วนของหน้าเว็บที่ถูกคัดลอกโดย AI ของมานุษยวิทยาต่อผู้เข้าชมที่ส่งกลับมาเป็น 60,000 ต่อหนึ่ง ความเชื่อมั่นนี้สะท้อนโดย Danielle Cofey ซีอีโอของ News/Media Alliance ซึ่งกล่าวว่า“ ลิงก์เป็นคุณภาพการไถ่ครั้งสุดท้ายของการค้นหาที่ให้การรับส่งข้อมูลและรายได้ของผู้เผยแพร่ตอนนี้ Google ใช้เนื้อหาโดยใช้กำลังและใช้มันโดยไม่กลับมา ก่อนที่จะดำเนินการกับความงุนงงล่าสุด บริษัท ได้ปรับใช้การตอบโต้ที่ซับซ้อนแล้ว สิ่งเหล่านี้รวมถึง“ AI Labyrinth” เครื่องมือหลอกลวงที่ดักจับบอทที่ไม่สอดคล้องในเขาวงกตของเนื้อหาปลอมเพื่อเสียทรัพยากรของพวกเขาและ“ จ่ายต่อการรวบรวมข้อมูล” ระบบที่อนุญาตให้ใช้ไซต์ที่เรียกเก็บเงินสำหรับการเข้าถึงโดยการฟื้นฟูความสามารถในการจ่ายเงินของ บริษัท การยกเลิกความคิดที่ว่า บริษัท AI นั้นมีพลังเกินกว่าที่จะหยุดเขามีชื่อเสียง“ และคุณกำลังบอกฉันฉันไม่สามารถหยุดคนโง่ด้วย C-corporation ใน Palo Alto ได้หรือไม่”

การเล่าเรื่องคู่ที่มีความหลากหลาย มีรายงานว่าการประเมินมูลค่าของการเริ่มต้นเพิ่มสูงขึ้นเป็น 18 พันล้านดอลลาร์ในเดือนกรกฎาคม 2568 ซึ่งเป็นการกระโดดครั้งใหญ่จากตัวเลขต้นปี 2567 การเติบโตนี้เกิดจากกลยุทธ์การขยายตัวที่ก้าวร้าว

ความเปรอะเปื้อนได้เปิดตัวชุดผลิตภัณฑ์พรีเมี่ยมรวมถึงการสมัครสมาชิก“ Max” $ 200/เดือนและเบราว์เซอร์ AI ของ”ดาวหาง”ของตัวเอง CEO Aravind Srinivas สัญญากับดาวหางจะส่งมอบ“ การปรับปรุงการเรียกดูหลักที่ Chrome ไม่ได้ส่งมานานแล้ว” กรอบเป็น“ พันธมิตรทางความคิด” สำหรับผู้ใช้

บริษัท กำลังดำเนินการตามข้อเสนอการซื้อกิจการผู้ใช้จำนวนมาก การเป็นหุ้นส่วนเมื่อเร็ว ๆ นี้กับ Airtel ยักษ์ใหญ่ด้านโทรคมนาคมของอินเดียจะให้บริการ Perplexity Pro ฟรีปีฟรีแก่ลูกค้า 360 ล้านคนซึ่งเป็นการย้ายที่กล้าหาญเพื่อจับตลาดสำคัญ สิ่งนี้เป็นไปตามข้อตกลงที่คล้ายกันกับโมโตโรล่าแม้ว่าจะถูก จำกัด ด้วยสัญญาต่อต้านการผูกขาดของ Google

อย่างไรก็ตามการขยายตัวอย่างรวดเร็วนี้มาพร้อมกับข้อกังวลอื่น ๆ การตรวจสอบความปลอดภัยในเดือนเมษายน 2568 โดย Appknox ตั้งค่าสถานะ“ ช่องโหว่ที่สำคัญ” ในแอพ Android ของ Perplexity

สงครามที่กว้างขึ้นในอนาคตของเว็บ

การปะทะกันระหว่าง Cloudflare และ Perplexity เน้นความตึงเครียดพื้นฐานในยุค AI นักพัฒนา AI ต้องการข้อมูลจำนวนมากในการฝึกอบรมแบบจำลองของพวกเขาในขณะที่ผู้เผยแพร่เห็นเนื้อหาของพวกเขาถูกใช้เพื่อให้บริการพลังงานที่สามารถลดการจราจรและรายได้ของพวกเขา

สิ่งนี้นำไปสู่กลยุทธ์ที่แตกหัก ในขณะที่ New York Times ฟ้อง Openai แต่ก็ลงนามในข้อตกลงการออกใบอนุญาตเนื้อหาที่สำคัญกับ Amazon

สถานการณ์ของ Perplexity สรุปการต่อสู้ทั่วทั้งอุตสาหกรรมนี้ มันเป็นผู้ริเริ่มที่มีชื่อเสียงในการผลักดันขอบเขตของการค้นหา AI และนักแสดงที่ขัดแย้งกันที่ถูกกล่าวหาว่าทำลายโปรโตคอลเว็บมายาวนาน ผลลัพธ์ของความขัดแย้งนี้และความขัดแย้งที่คล้ายกันน่าจะกำหนดกฎสำหรับอินเทอร์เน็ตรุ่นต่อไป

Cloudflare กล่าวหาว่าการใช้’stealth crawlers’เพื่อหลบเลี่ยงมาตรฐานเว็บ

Published by All Things Windows on August 4, 2025

Cloudflare กล่าวหาว่าน่างงงวยของ’การรวบรวมข้อมูลล่องหน’

รูปแบบของการโต้เถียงและผู้จัดพิมพ์ pushback

สงครามที่กว้างขึ้นในอนาคตของเว็บ

IT Info

Openai กลับไปที่ Open-Weight AI ด้วยรุ่น GPT-OSS ใหม่

IT Info

คุณสมบัติ AI ของ Gemini ‘Storybook’ ใหม่ของ Google สร้างนิทานที่มีภาพประกอบพร้อมผลลัพธ์ที่แปลกประหลาดอย่างน่าอัศจรรย์

IT Info

โครงการ IRE: Microsoft เปิดตัว AI Malware Hunter Autonomous Autonomous

Cloudflare กล่าวหาว่าการใช้’stealth crawlers’เพื่อหลบเลี่ยงมาตรฐานเว็บ

Published by All Things Windows on August 4, 2025

Cloudflare กล่าวหาว่าน่างงงวยของ’การรวบรวมข้อมูลล่องหน’

รูปแบบของการโต้เถียงและผู้จัดพิมพ์ pushback

สงครามที่กว้างขึ้นในอนาคตของเว็บ

Related Posts

IT Info

Openai กลับไปที่ Open-Weight AI ด้วยรุ่น GPT-OSS ใหม่

IT Info

คุณสมบัติ AI ของ Gemini ‘Storybook’ ใหม่ของ Google สร้างนิทานที่มีภาพประกอบพร้อมผลลัพธ์ที่แปลกประหลาดอย่างน่าอัศจรรย์

IT Info

โครงการ IRE: Microsoft เปิดตัว AI Malware Hunter Autonomous Autonomous