لقد أطلقت Cloudflare للتو نقطة نهاية /crawl وكل شخص يفقد عقله.


هدئوا. دعني أخبركم بما هي فعلاً، وما ليست، ولماذا ربما لا تحتاجونها.

نقطة النهاية /crawl هي عبارة عن غلاف. تعطيها عنوان URL، وتقوم بتشغيل متصفحات headless على بنية Cloudflare الأساسية، وتتابع الروابط، وتعرض JavaScript، وتعيد إليك Markdown أو JSON. كل ذلك برابط (واحد).

إنها رائعة لكنها ليست ثورية.

Firecrawl تفعل هذا. Crawl4AI تفعل هذا. Spider تفعل هذا. كانوا يفعلون هذا منذ شهور. أضافت Cloudflare ذلك إلى منتج Browser Rendering الموجود لديهم وتفاعل الجميع كما لو أنهم اخترعوا الزحف.

ما هو مثير للاهتمام فعلاً: أنها Cloudflare. هذا يعني أنها رخيصة (0.09 دولار/ساعة).

لكن الحقيقة هي أنك ربما لا تحتاج حتى إلى ناحف.

هناك 8 طرق يمكن لوكيل ذكي أن يقرأ صفحة ويب. يقفز معظمهم مباشرة إلى الطرق المعقدة عندما كان طلب HTTP لمدة 50 ميلي ثانية سيكون كافياً. لذا دعونا نقسمها جميعاً، من الأبسط إلى الأكثر إفراطاً.

1. جلب HTTP خام
يرسل الوكيل طلباً، ويستعيد HTML. هذا كل شيء.
مثل قراءة صورة مصدر الكتاب بدلاً من الصفحة المطبوعة. يعمل بشكل رائع على المواقع البسيطة والمدونات والويكيز والمستندات. ينقطع عند أي شيء يستخدم JavaScript لتحميل المحتوى.
السرعة: ~50ms. التكلفة: مجانية.

2. محلل القراءة
نفس الشيء، لكن مع خطوة تنظيف. ينزع أشرطة التنقل والإعلانات والتذييلات وبنرات ملفات تعريف الارتباط. يعطيك فقط نص المقالة في Markdown نظيف.
لا يتعامل مع محتوى يتم عرضه بواسطة JavaScript. لكن للمقالات والمستندات، فهو مثالي، وهذا ما أستخدمه يومياً.
السرعة: ~100ms. التكلفة: مجانية.

3. متصفح headless (محلي)
يطلق Chrome غير مرئي يحمل الصفحة مثل الإنسان. JavaScript يعمل، المحتوى يتم عرضه، كل شيء يحمل. يمكنك النقر والتمرير وملء النماذج وتسجيل الدخول.
المشكلة: بطيء (2-10s)، يستهلك ~200MB RAM لكل مثيل، وأنت تحتفظ بالبنية الأساسية.
الأدوات: Playwright، Puppeteer، Selenium.

4. واجهة برمجة تطبيقات متصفح سحابي
نفس #3 لكن شخص آخر يدير المتصفح. ترسل عنوان URL، تستعيد الصفحة المعروضة. هنا تعيش نقطة نهاية /crawl الخاصة بـ Cloudflare، جنباً إلى جنب مع Browserbase و Steel.
لا توجد مشاكل في البنية الأساسية، وتتوسع بسهولة، ورخيصة. المقابل: تحكم أقل في التفاعلات.

5. واجهة برمجة تطبيقات الكشط المدارة
هذا هو مستوى حرب مكافحة الروبوتات. ScrapingBee، Bright Data، الوكلاء الدوارون، حل CAPTCHA، عناوين IP السكنية. عندما يقاتل الموقع بنشاط ضدك.
يعمل. تكلفة $49-499+/شهر.

6. ناحف أصلي للذكاء الاصطناعي
Firecrawl، Crawl4AI، Spider. زحف + عرض + تحويل تلقائي إلى Markdown/JSON نظيف. مبني لخطوط أنابيب RAG. حدد مخططات الاستخراج باللغة الطبيعية.
"الموجة الجديدة" التي تتنافس معها Cloudflare الآن.

7. استخراج LLM
تخطي الكود بالكامل. قم بتفريغ محتوى الصفحة في LLM، واسأل "ما السعر؟" بالإنجليزية العادية. لا محددات CSS، لا regex، لا صيانة عندما يعاد تصميم الموقع.
العيب: مكلف على نطاق واسع $0
الرموز تتراكم بسرعة$0
. الأفضل كخطوة نهائية بعد التنظيف باستخدام الطرق 1-6.

8. واجهات برمجية رسمية
الشيء الذي ينساه الجميع. X، Reddit، معظم SaaS، لديهم واجهات برمجية. بيانات منظمة، لا تحليل، لا ألعاب مكافحة الروبوتات. عندما توجد واجهة برمجية، فهي دائماً الخيار الصحيح.

الإعدادات الجيدة تجمع بين 2-3:
→ جلب → قارئية → LLM لاستخراج مقالات رخيص
→ متصفح سحابي → LLM للمواقع الثقيلة في JavaScript
→ شم الواجهة البرمجية الفعلية في DevTools → استدعاءها مباشرة، الكأس المقدسة، مجاني، أسرع، الأكثر موثوقية
→ ناحف ذكاء اصطناعي → قاعدة بيانات متجهات لقواعد المعرفة الكاملة

التكاليف الحقيقية عند 10,000 صفحة/شهر
• جلب HTTP: مجاني
• قارئ Jina: مجاني
• متصفح Cloudflare: ~$0.90
• Spider: ~$4.80
• Firecrawl: $47/شهر
• ScrapingBee: $49-147/شهر
• Bright Data: $499+/شهر

قاعدتان أتبعهما:
ابدأ بسيط. واجهة برمجية > جلب > قراءة > متصفح. أضف التعقيد فقط عندما تفشل الطريقة الأبسط. أرى أشخاصاً يشغلون Playwright للمواقع حيث يعمل curl بشكل جيد.

معظم المواقع لا تحتاج إلى عرض JS. 60%+ من الويب ثابت أو يتم عرضه من قبل الخادم. اختبر مع جلب بسيط أولاً.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:2
    0.00%
  • القيمة السوقية:$2.43Kعدد الحائزين:2
    0.01%
  • القيمة السوقية:$2.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.44Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:1
    0.00%
  • تثبيت