📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
只会Vibe Coding不会变专家!Anthropic揭真相:专业知识比写Code更重要
报告指出,运用人工智能写程序时,领域知识与验收能力比编程技巧关键。具备专业判断与出题能力,方能大幅提升任务成功率。
6 月 16 日,Anthropic 发布研究报告《Agentic coding and persistent returns to expertise》(agentic coding 指“交办式写程序”,你下指令、AI 自己读档案跑指令把事做完)。
报告分析 2025 年 10 月到 2026 年 4 月、约 23.5 万名用户、约 40 万次 Claude Code 互动对话,它想回答一个很多人焦虑的问题:没受过正式程序训练的人,真的能指挥 AI 完成复杂技术工作吗?
报告给的答案是肯定的,但真正值得注意的,是报告的结论:会不会写程序没那么重要,而“懂不懂你手上那件事”反而更重要了。
“人人都能写程序”,这句话只对了一半
过去一年,“vibe coding”(凭感觉写程序,你用自然语言描述想要什么,AI 直接生出能跑的代码,你不必真的看懂每一行)红遍开发圈。顺着这股风潮,最常见的叙事是:写程序的门槛被夷平了,人人都是工程师。
这个叙事对谁最有利?对 AI 工具厂商、对“不必再请工程师”的老板,都是好故事。但报告的资料把它修正成一个更务实的版本。
Anthropic 替每次对话的用户,依据逐字稿在“新手到专家”五个等级上评分。要注意,这个专业度跟职称、跟一个人聪不聪明是两回事,而且是任务特定的。
报告举了一个关键例子:一个从没用过 Python 的会计,只要能明确告诉 Claude 对账规则该怎么设、还能在月结时抓出 AI 漏掉的边界错误,他在那个任务上就是专家;反过来,一个资深工程师第一次问 Rust 语言的问题,他就是新手。
换句话说,这里讲的“专业”不是会不会 coding,而是你对“要解决的问题本身”懂多少。这也是为什么把报告滑坡成“人人都能取代工程师”会读错,领域知识本身就是一种需要长年累积的专业判断,它没有消失,只是换了个位置变成瓶颈。
分工长什么样:你出题,AI 答题
报告最清楚的一张图,是人与 AI 的决策分工。Anthropic 把每个决策拆成“规划”(做什么、用哪种方法、怎样算完成)和“执行”(改哪个档、写什么程序、用哪种语言)。结果是:平均而言,人做了约 70% 的规划决策,Claude 做了约 80% 的执行决策。
图源:Anthropic
白话说,人负责出题与验收,AI 负责动手。而且使用者愈内行,这个分工愈倾向“放手”:报告发现,新手的每一句指令平均触发 Claude 约 5 个动作、产出约 600 字;专家的每句指令则触发约 12 个动作、约 3,200 字。内行人敢一次把更大块的事交出去,因为他知道怎么描述、也知道怎么验收。
图源:Anthropic
这是这份报告第一个反直觉的地方:AI 愈强,内行人的杠杆不是缩小,而是放大。
真正拉开差距的数字,藏在成功率里
Anthropic 用两种方式衡量“这次对话成功了没”。最宽松的是“至少部分成功”;最严格的叫 verified success(核实成功,意思是不只 AI 自己判断有完成,还要有 git 提交、测试通过、或使用者明确认可这类看得到的硬证据)。
照最严格的标准看:新手对话的核实成功率只有 15%,中阶到专家则跳到 28% 到 33%。宽松标准下,新手 77%、中阶以上 91% 到 92%。
图源:Anthropic
但这里有个细节,报告特别强调:大部分增益集中在“新手变中阶”这一段,从中阶再爬到专家,曲线就平掉了。用报告的原话,只要对一个领域有基本掌握、能上手的程度,就能拿到大多数好处,深度精通只多一点点。
差距还体现在“卡关时谁撑得住”。当对话遇到麻烦(报错、测试失败、反复尝试),新手有 19% 直接放弃、一行程序都没写;其他人放弃率只有 5% 到 7%。报告的诠释是:把 AI 导回正轨的能力,本身就是专业的一部分。
一个被低估的发现:职业差异,比你以为的小很多
如果写程序背景真的那么关键,那软件工程师应该大幅领先才对。资料不是这样。
在会产生代码的对话里,软件相关职业的核实成功率约 34%,其他职业约 29%,只差 5 个百分点,而且这个差距七个月来没有扩大也没有缩小。
报告统计了资料中前十大职业,每一个的成功率都落在软件工程师的 7 个百分点以内。更反直觉的是,管理职的核实成功率甚至略高于软件工程师。
报告自己给了两个可能解释:一是管理者“指挥、交办、定义任务”的技能本来就能转移到指挥 AI 上;二是衡量方式的偏误,因为核实成功部分仰赖使用者在对话里明讲“对,就是这样”,而管理者可能比较习惯把话讲清楚。
这七个月还有一组变化值得看:花在 debug(抓虫、修坏掉的程序)的对话占比,从 33% 一路掉到 19%,几乎砍半;相对地,operating software(部署、设置、实际把软件跑起来)从 14% 升到 21%,写作与资料分析从约 10% 翻倍到约 20%。
报告用“对照接案市场行情”的方式估算每次任务的价值(它特别声明这只是相对比较,不该被当成精确金额),结果是平均任务价值在这段期间上升约 27%(报告摘要另写约 25%)。
这份报告没说、但更该想的事
这份报告有它老实承认的限制:它看不到真实世界的结果,无法得知一次对话写出来的程序码后来到底有没有被用;它也排除了“非互动式”用法(例如把 Claude Code 嵌进自动化流程),而那是相当大一块。所有分类都来自模型读逐字稿的判断。所以这是一张“早期快照”,不是定论。
更值得知识工作者放在心上的,是报告结尾埋的那个提问。Anthropic 说,他们会持续追踪一件事:如果“领域知识的回报”哪天开始下降,那就代表模型开始能自己供应使用者目前还得自己带进来的那种判断力。
这份报告的启示是:你不必为了“不会写程序”而焦虑着去补一门程序课,更划算的投资,是把你本来就在做的那个领域弄得更透、把“什么叫做对”说得更清楚。
先把问题想清楚,再交给 AI 加速;先能验收,再敢放手。