Gate Booster 第 4 期:发帖瓜分 1,500 $USDT
🔹 发布 TradFi 黄金福袋原创内容,可得 15 $USDT,名额有限先到先得
🔹 本期支持 X、YouTube 发布原创内容
🔹 无需复杂操作,流程清晰透明
🔹 流程:申请成为 Booster → 领取任务 → 发布原创内容 → 回链登记 → 等待审核及发奖
📅 任务截止时间:03月20日16:00(UTC+8)
立即领取任务:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多详情:https://www.gate.com/announcements/article/50203
Cloudflare 刚刚推出了一个 /crawl 端点,大家都炸了。
冷静下来。让我告诉你它到底是什么、不是什么,以及你可能根本用不到它。
/crawl 端点是一个封装器。你提供一个 URL,它会在 Cloudflare 的基础设施上启动无头浏览器,跟随链接,渲染 JavaScript,然后用一个 API 调用返回 markdown 或 JSON。
这很酷,但并不革命。
Firecrawl 做过这个。Crawl4AI 做过这个。Spider 也做过这个。他们已经做了几个月了。Cloudflare 只是把它加入到他们现有的浏览器渲染产品中,然后大家都表现得像他们发明了爬虫一样。
真正有趣的是:这是 Cloudflare。这意味着它很便宜,($0.09/小时)。
但问题是,你可能根本不需要爬虫。
有 8 种方式让 AI 代理读取网页。大多数人直接跳到复杂的方法,其实一个 50 毫秒的 HTTP 请求就能搞定。所以我们从最简单到最过度的逐一分析。
1. 原始 HTTP 获取
你的代理发出请求,得到 HTML。就这样。
就像阅读一本书的源代码,而不是印刷的页面。对简单网站、博客、维基、文档都很适用。在用 JavaScript 加载内容的网站上就不行。
速度:约50毫秒。成本:免费。
2. 可读性解析器
相同的,但带有清理步骤。去除导航栏、广告、页脚、cookie 横幅。只给你干净的 markdown 格式的文章文本。
不能处理 JavaScript 渲染的内容。但对于文章和文档来说,这很完美,也是我每天使用的。
速度:约100毫秒。成本:免费。
3. 无头浏览器 (本地)
启动一个隐形的 Chrome,像人一样加载页面。JavaScript 运行,内容渲染,一切加载完毕。你可以点击、滚动、填写表单、登录。
问题:速度慢,约 2-10 秒,且每个实例消耗约 200MB RAM,你还得维护基础设施。
工具:Playwright、Puppeteer、Selenium。
4. 云端浏览器 API
和 #3 类似,但由别人运行浏览器。你发出 URL,得到渲染好的页面。这就是 Cloudflare 的 /crawl 以及 Browserbase 和 Steel 所做的。
没有基础设施烦恼,容易扩展,价格便宜。权衡:对交互的控制较少。
5. 托管爬取 API
这是反机器人战的高级方案。ScrapingBee、Bright Data、轮换代理、CAPTCHA 破解、住宅 IP。当网站主动反抗你时用。
有效,但价格在每月 $49-499+。
6. AI 原生爬虫
Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自动转换成干净的 markdown/JSON。为 RAG(检索增强生成)管道设计。用自然语言定义提取规则。
这是 Cloudflare 现在竞争的“新潮流”。
7. 大型语言模型(LLM)提取
完全跳过代码。将网页内容放入 LLM,问“价格是多少?”用普通英语。没有 CSS 选择器,没有正则表达式,也不用担心网站重设计。
缺点:大规模使用成本高,(tokens 会快速累积。最好作为用方法 1-6 清理后最后一步。
8. 官方 API
大家都忘了这个。X、Reddit、大多数 SaaS 都有 API。结构化数据,无需解析,无需反机器人游戏。当 API 存在时,永远是最佳选择。
好的方案通常结合 2-3 种:
→ 获取 → 可读性 → 用 LLM 低成本提取文章
→ 云端浏览器 → 用 LLM 处理 JavaScript 密集型网站
→ 在 DevTools 中嗅探实际 API → 直接调用,圣杯,免费,最快,最可靠
→ AI 爬虫 → 向量数据库,建立完整知识库
每月 10,000 页的实际成本
• HTTP 请求:) • Jina 阅读器:( • Cloudflare 浏览器:~) • Spider:约 $4.80
• Firecrawl:$47/月
• ScrapingBee:$49-147/月
• Bright Data:$499+/月
我遵循的两个原则:
从简单开始。API > 请求 > 可读性 > 浏览器。只有当更简单的方法失败时,才增加复杂性。我看到有人为 curl 就能用的网站启动 Playwright。
大部分网站不需要 JavaScript 渲染。超过 60% 的网页是静态或服务器渲染的。先用简单请求测试。