Cloudflare เมื่อวันที่ 10 มีนาคม ได้เปิดตัวจุดสิ้นสุด /crawl ใหม่สำหรับบริการ Browser Rendering ของตน (ในช่วง Open Beta ขณะนี้) ฟีเจอร์ใหม่นี้อนุญาตให้นักพัฒนาสามารถเก็บข้อมูลเว็บไซต์ทั้งเว็บไซต์ด้วยการเรียก API เพียงครั้งเดียว และสามารถแปลงเนื้อหาเป็น HTML, Markdown หรือ JSON ที่มีโครงสร้างอัตโนมัติ ซึ่งเป็นเครื่องมือที่ทรงพลังและเป็นไปตามกฎระเบียบสำหรับการสร้างชุดข้อมูลฝึก AI และกระบวนการ RAG (Retrieval-Augmented Generation)
(เรื่องราวก่อนหน้า: ความล้มเหลวครั้งใหญ่ของ Cloudflare ทำให้เครือข่ายทั่วโลกหยุดชะงัก “โครงสร้างแบบกระจายศูนย์” คืออนาคตของโครงสร้างพื้นฐาน?)
(ข้อมูลเสริม: หลังจาก Cloudflare ล่มเป็นเวลา 24 ชั่วโมง ทำไมเครือข่ายถึง “ล่มทันที”? ความเสี่ยงของการรวมศูนย์ส่งผลต่อ Web3 และ RWA ในอนาคต)
สารบัญบทความ
สลับ
ด้วยการเติบโตอย่างรวดเร็วของ AI แบบสร้างสรรค์และเทคโนโลยี RAG (Retrieval-Augmented Generation) การดึงข้อมูลจากเว็บไซต์อย่างมีประสิทธิภาพและเป็นไปตามกฎระเบียบ จึงกลายเป็นความท้าทายอันดับต้น ๆ สำหรับนักพัฒนา ในเรื่องนี้ ยักษ์ใหญ่ด้านโครงสร้างพื้นฐานเครือข่าย Cloudflare ได้ประกาศอย่างเป็นทางการเมื่อวันที่ 10 มีนาคม ว่าได้เปิดตัวฟีเจอร์ใหม่ระดับฆ่าตัวตายสำหรับบริการ Browser Rendering ของตน: จุดสิ้นสุด /crawl API ใหม่
ฟีเจอร์นี้อยู่ในช่วงทดสอบแบบเปิด (Open Beta) ซึ่งเน้นให้ผู้พัฒนาสามารถ “เก็บข้อมูลเว็บไซต์ทั้งเว็บไซต์ด้วยการเรียก API ครั้งเดียว”
จากประกาศของ Cloudflare API ตัวใหม่นี้ใช้โหมดการทำงานแบบอะซิงโครนัส (Asynchronous) นักพัฒนาสามารถส่ง URL เริ่มต้น ระบบจะคืนรหัสงาน (Job ID) และทำงานเบื้องหลังโดยใช้เบราว์เซอร์ไร้หัว (Headless Browser) เพื่อค้นหาและเรนเดอร์หน้าเว็บโดยอัตโนมัติ นักพัฒนาสามารถตรวจสอบความคืบหน้าและผลลัพธ์ของการเก็บข้อมูลได้ตลอดเวลาโดยใช้รหัสงานนั้น
เพื่อให้สอดคล้องกับกระบวนการพัฒนา AI ในปัจจุบัน API นี้จึงรองรับหลายรูปแบบของผลลัพธ์ นอกจาก HTML แบบดั้งเดิมแล้ว ยังสามารถส่งออกเป็น Markdown ซึ่งเป็นที่นิยมในกลุ่ม LLM (Large Language Models) และ JSON ที่มีโครงสร้างซึ่งขับเคลื่อนโดย Workers AI ซึ่งช่วยลดเวลาที่นักพัฒนาต้องใช้ในการทำความสะอาดข้อมูลและแปลงรูปแบบอย่างมาก
ต่างจากบอทเก็บข้อมูลที่พยายามเลี่ยงการป้องกันในตลาดหลายตัว จุดสิ้นสุด /crawl ที่ Cloudflare เปิดตัวนี้เน้นความ “เป็นไปตามกฎหมายและโปร่งใส” อย่างชัดเจน ทางบริษัทเน้นว่า จุดสิ้นสุดนี้เป็นตัวแทน (Signed-agent) ที่ได้รับการลงนามล่วงหน้า ซึ่งจะปฏิบัติตามคำสั่งในไฟล์ robots.txt ของเว็บไซต์เป้าหมายอย่างเคร่งครัด รวมถึงการจำกัดความถี่ในการเก็บข้อมูลตามที่กำหนดไว้ และเคารพแนวทาง “AI Crawl Control (การควบคุมการเก็บข้อมูลด้วย AI)” ของ Cloudflare เอง
นอกจากนี้ Cloudflare ยังระบุอย่างชัดเจนว่า เครื่องมือนี้ “จะแสดงตัวเองว่าเป็นบอท” และ ไม่สามารถข้ามระบบตรวจจับบอท ของ Cloudflare หรือ CAPTCHA ได้ การออกแบบเช่นนี้ช่วยให้แน่ใจว่าการเก็บข้อมูลด้วยบอทจะไม่ละเมิดความตั้งใจของเจ้าของเว็บไซต์หรือเซิร์ฟเวอร์ของพวกเขา
เพื่อเพิ่มประสิทธิภาพและลดต้นทุน API นี้ยังมีฟีเจอร์การควบคุมขั้นสูงหลายอย่าง:
ปัจจุบัน ฟีเจอร์การเก็บข้อมูลอันทรงพลังนี้เปิดให้ใช้งานเต็มรูปแบบสำหรับผู้ใช้ Cloudflare Workers ทั้งในเวอร์ชันฟรีและแบบเสียเงิน ซึ่งเหมาะสำหรับทีมพัฒนาที่ต้องการตรวจสอบเนื้อหาเว็บไซต์เป็นประจำ รวบรวมข้อมูลสำหรับการวิจัย หรือสร้างฐานความรู้ AI ระดับองค์กร ซึ่งเป็นการอัปเกรดโครงสร้างพื้นฐานที่น่าดึงดูดใจอย่างยิ่ง