
Image by Marco Verch, from Ccnull
AI Labyrinth: เครื่องมือใหม่ของ Cloudflare หลอก AI Crawlers ด้วยหน้าเว็บปลอม
Cloudflare ได้ประกาศเปิดตัว “AI Labyrinth,” เครื่องมือที่ออกแบบมาเพื่อต่อสู้กับ web scrapers ที่ขับเคลื่อนด้วย AI ซึ่งดึงข้อมูลจากเว็บไซต์โดยไม่ได้รับอนุญาต.
รีบหรือเปล่า? นี่คือข้อมูลสำคัญที่คุณต้องรู้:
- เครื่องมือสร้างเนื้อหาที่เป็น AI แต่ไร้ประโยชน์และเป็นความเป็นจริงเพื่อสร้างความเสียเวลาให้กับผู้เก็บข้อมูล.
- AI Labyrinth มุ่งเป้าหมายไปที่บอทที่ไม่สนใจ robots.txt รวมถึงบอทจาก Anthropic และ Perplexity AI.
- มันทำงานเป็นระบบป้องกันความไม่พึงประสงค์รุ่นใหม่ ที่สามารถตรวจจับและบันทึกลายนิ้วมือของผู้ควบคุมที่ไม่ได้รับอนุญาต.
แทนที่จะบล็อกบอทเหล่านี้โดยตรง AI Labyrinth จะทำให้พวกมันหลงทางเข้าสู่เขาวงศ์ที่ไม่มีทางออกของหน้าเว็บที่สร้างขึ้นโดย AI ทำให้เสียเวลาและพลังงานประมวลผลของพวกมัน
“เมื่อเราตรวจจับการความพยายามในการเข้าถึงข้อมูลโดยไม่ได้รับอนุญาต, แทนที่จะปิดกั้นการร้องขอนั้น เราจะนำไปสู่หน้าเว็บที่สร้างโดย AI ซึ่งน่าเชื่อถือพอที่จะดึงดูด crawler มาค้นหา,” Cloudflare อธิบายในโพสต์บล็อก.
“แต่ทว่า ถึงแม้ว่าเนื้อหาที่ปรากฏจะดูเหมือนจริง แต่เนื้อหานั้นไม่ใช่เนื้อหาจริงของเว็บไซต์ที่เรากำลังปกป้อง, ดังนั้น crawler จึงเสียเวลาและทรัพยากร,” Cloudflare เพิ่มเติม.
ArsTechnica บันทึกว่า ปัญหาของ AI scrapers คือการเก็บข้อมูลจำนวนมากจากเว็บไซต์เพื่อฝึก AI models โดยมักจะไม่ได้รับอนุญาต ซึ่งสร้างปัญหาหลายประการ: มันอาจละเมิดสิทธิ์ทรัพย์สินทางปัญญา, และข้ามการควบคุมที่เจ้าของเว็บไซต์ใช้ในการควบคุมการเข้าถึงข้อมูล
นอกจากนี้การ scraping ยังอาจนำไปสู่การใช้ข้อมูลที่ละเอียดอ่อนหรือเป็นข้อมูลพิเศษอย่างไม่เหมาะสม ปริมาณการ scraping ได้เพิ่มขึ้นอย่างรุนแรง ด้วยรายงานของ Cloudflare ที่แสดงว่ามีการร้องขอ crawler มากกว่า 50 พันล้านครั้งต่อวัน
การดึงข้อมูลขนาดใหญ่นี้ทำให้ทรัพยากรของเว็บไซต์หมดสภาพ ส่งผลกระทบต่อประสิทธิภาพของเว็บไซต์และความเป็นส่วนตัว ในขณะที่ยังเพิ่มความกังวลเกี่ยวกับการใช้ข้อมูลอย่างไม่เหมาะสมในการพัฒนา AI
ทั่วไปแล้ว เจ้าของเว็บไซต์มักพึ่งพาไฟล์ robots.txt เพื่อบอกบอทว่าจะเข้าถึงอะไรและไม่สามารถเข้าถึงอะไรได้ แต่บริษัท AI หลายแห่ง รวมถึงบริษัทใหญ่ๆ เช่น Anthropic และ Perplexity AI ถูกกล่าวหาว่าได้ละเมิดคำสั่งเหล่านี้ด้วย ตามที่ The Verge รายงาน
AI Labyrinth ของ Cloudflare นำเสนอวิธีการที่แข็งข้อยิ่งขึ้นในการจัดการกับบอทที่ไม่พึงประสงค์เหล่านี้ นามว่า “honeypot รุ่นถัดไป” ที่ทำหน้าที่ดึงบอทเข้าไปยิ่งลึกลงในเว็บของเนื้อหาที่เทียมทำขึ้นแต่ดูเหมือนจริง แต่ในที่สุดแล้วไม่มีประโยชน์สำหรับการฝึกฝน AI ใดๆ
ไม่เหมือนกับ honeypot แบบดั้งเดิมที่บอทได้เรียนรู้วิธีการระบุ AI Labyrinth สร้างข้อมูลที่ดูเหมือนจริงแต่ไม่เกี่ยวข้องโดยใช้แพลตฟอร์ม Workers AI ของ Cloudflare
“ไม่มีคนที่แท้จริงที่จะไปถึงลิ้งค์ที่สี่ในเขาวงศ์ของความสับสนที่สร้างขึ้นด้วย AI,” Cloudflare กล่าวไว้ “ผู้เยี่ยมชมที่ทำเช่นนั้นมีโอกาสสูงที่จะเป็นบอท ดังนั้น นี่เป็นเครื่องมือใหม่ของเราในการระบุและสร้างลายนิ้วมือของบอทที่ไม่ดี”
เนื้อหาที่สร้างขึ้นด้วย AI ถูกออกแบบมาให้เป็นเรื่องทางวิทยาศาสตร์ที่เป็นความจริง แต่ไม่เกี่ยวข้องกับเว็บไซต์ที่กำลังได้รับการป้องกันอยู่จริงๆ
นี่จะทำให้มั่นใจว่าเครื่องมือนี้ไม่ทำให้ข้อมูลผิดพลาด ในขณะที่ยังสับสน AI scrapers หน้าที่ทำให้คนเข้าใจผิดนั้นจะไม่มองเห็นสำหรับผู้เยี่ยมชมและไม่ส่งผลต่อการจัดอันดับของเครื่องมือค้นหา
AI Labyrinth นั้นมีให้ใช้งานฟรี บังคับเลือกสำหรับผู้ใช้ Cloudflare ทุกคน ผู้ดูแลเว็บไซต์สามารถเปิดใช้งานผ่านแดชบอร์ดของ Cloudflare ใต้การตั้งค่าการจัดการ Bot
บริษัทอธิบายว่านี่เพียงแค่จุดเริ่มต้นเท่านั้นของมาตรการป้องกันที่ขับเคลื่อนด้วย AI โดยมีแผนในอนาคตที่จะทำให้หน้าที่ปลอมแปลงนั้นดูหลอกลวงมากขึ้น
เกมแมว-หนูระหว่างเว็บไซต์และ AI scrapers ยังคงดำเนินต่อไป โดย Cloudflare มีการนำเสนอแนวทางที่นวัตกรรมในการป้องกันเนื้อหาออนไลน์ อย่างไรก็ตาม ยังมีคำถามที่ยังคงค้างอยู่เกี่ยวกับว่าบริษัท AI จะทันการปรับตัวต่อกับกับดักเหล่านี้เร็วพอหรือไม่และว่ากลยุทธ์นี้จะนำไปสู่การสูงส่งในสงครามเกี่ยวกับข้อมูลเว็บหรือไม่
แสดงความคิดเห็น
ยกเลิก