
OpenAI 攜手 Paradigm 推出 EVMbench,實測 AI 代理在 EVM 合約攻防能力,揭示攻強守弱隱憂。
聚焦經濟環境實測,OpenAI 攜手 Paradigm 強化鏈上安全評等
人工智慧龍頭 OpenAI 宣佈與知名加密貨幣風險投資公司 Paradigm 以及安全公司 OtterSec 合作,推出專為評估 AI 代理(AI Agents)在以太坊虛擬機(EVM)智能合約安全性表現的基準測試工具 EVMbench。
隨著 AI 與加密技術的深度匯流,智能合約已成為管理超過 1,000 億開源加密資產的核心基礎設施。這項工具的問世,象徵著產業界開始正視 AI 在「具備經濟意義環境」中的實戰能力。
OpenAI 團隊指出,隨著 AI 代理在程式碼撰寫與規劃能力上的飛躍,未來這些模型將在區塊鏈的攻擊與防禦兩端扮演轉型角色,因此建立一套標準化的測評架構對於監測 AI 進展至關重要。
三大模式深度測驗,120 個真實審計漏洞成為 AI 試金石
EVMbench 的核心設計圍繞著 120 個從 40 項專業審計報告中提取的高風險漏洞,數據來源包含 Code4rena 等知名的公開審計競賽,確保測試場景貼近真實世界的複雜性。該基準測試將 AI 代理置於三種不同的工作模式中進行評估:

圖源:OpenAI EVMbench 的核心設計是將 AI 代理置於三種不同的工作模式中進行評估
- 第一是「檢測模式(Detect)」,要求 AI 審計合約程式碼庫並識別已知的漏洞,根據其找出的問題嚴重程度給予評分;
- 第二是「修補模式(Patch)」,挑戰 AI 在維持原有功能不變的前提下,移除可利用的漏洞並修復程式碼;
- 最後則是極具爭議的「利用模式(Exploit)」,AI 必須在沙盒化的區塊鏈環境中執行端對端的資金盜取攻擊。
為了確保測試的嚴謹性與可重複性,團隊開發了基於 Rust 語言的測試架構,透過確定性的交易回放技術來驗證 AI 的攻擊或修補是否成功。
攻強守弱趨勢顯著,GPT-5.3-Codex 展現驚人攻擊成長率
在首波釋出的測試結果中,AI 在不同任務間展現出明顯的能力落差。最新一代的 GPT-5.3-Codex 在利用模式(Exploit Mode)中表現優異,得分高達 72.2 %,相較於僅僅六個月前發佈的 GPT-5 模型(得分 31.9 %),展現出極為驚人的能力成長。

圖源:OpenAI 各種 AI 模型在三種模式下的分數概況
這顯示出當目標明確為「排空資金」時,AI 具備強大的迭代規劃與執行能力。然而,在防禦端的表現則相對疲軟,AI 在檢測模式下經常在發現單一錯誤後便停止搜尋,且在修補複雜邏輯時,往往難以在不影響合約正常運行的情況下完美修復漏洞。安全專家對此表達關注,認為 AI 可能會大幅壓縮從發現漏洞到開發出攻擊手段的時間,這對去中心化金融(DeFi)項目的防禦速度提出了更高要求。
人才引進與防禦補助,OpenAI 佈局 AI 代理生態系安全性
除了工具的開發,OpenAI 在人才佈局與生態防禦上也動作頻頻,近期聘請了開源 AI 代理項目 OpenClaw 的創辦人 Peter Steinberger,主導下一代個人化代理的開發,並將該項目轉化為 OpenAI 支持的基金會模式。
為了應對 AI 可能帶來的網路安全風險,OpenAI 承諾將透過其網路安全補助計畫,撥款 1,000 萬的 API 額度,用於支持開源防禦工具與關鍵基礎設施的研究。這項行動在近期發生的 Moonwell 協議事件後顯得尤為及時,該事件中因 AI 共著程式碼中的價格計算錯誤導致約 178 萬的損失。
延伸閱讀
拒絕Meta數十億邀約,OpenClaw創作者加入OpenAI掀人才爭奪戰都是Vibe Coding的錯?Moonwell預言機出包,178萬壞帳誰來買單
未來,隨著更多 AI 輔助的穩定幣支付代理與自動化錢包加入生態,如何利用 EVMbench 這類工具區分僅能描述漏洞的模型與能可靠提供防禦方案的模型,將成為區塊鏈安全產業的關鍵轉折點。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
LayerZero 確認 LayerZero DVN 恢復營運並建議多個 DVN 團隊恢復操作
Gate 新聞消息,LayerZero 透過部落格確認 LayerZero DVN 已投入營運。LayerZero 建議多個 DVN 團隊恢復營運。
GateNews14分鐘前
陳浩濂:香港證監會研究代幣化二級市場規則,目標 2026 上半年公佈細節
香港官員宣布正在研究代幣化產品二級市場規則,並計劃於2026年上半年公佈細節。香港金融管理局已發放首批兩個穩定幣牌照,推動數位資產發展,同時香港積極擴展代幣化貨幣市場基金及綠色債券的應用。此外,香港與中東的資金流通也日益增加。
Market Whisper2小時前
IRS 退稅延遲引爆 HYTOPIA 停機危機,平台下線 1 至 3 個月
元宇宙平台HYTOPIA因等待IRS大額退稅款項未到賬,決定暫停基礎設施運營,預計停機1至3個月。該平台與HY Foundation間的未付帳款糾紛也導致部分代幣交付延遲。HYTOPIA承諾將透明處理此事,並請求社群耐心等待。
Market Whisper2小時前
Pi Network 核心團隊:生態系統已有逾 1800 萬名身分驗證用戶
Pi Network 官方宣布目前已有超過 1,800 萬名完成 KYC 的用戶,強調驗證用戶在交易中比其他未驗證帳戶更具意義。核心團隊認為身份驗證對於交易信任度至關重要,並因此建立完全 KYC 驗證的主網生態,以確保身分可驗證並減少垃圾郵件,提升整體可信度。
Market Whisper2小時前
Curve Finance 預防性暫停 LayerZero 跨鏈,CRV 及 crvUSD 橋接受限
Curve Finance因rsETH相關的LayerZero基礎設施遭受攻擊,已暫停跨鏈功能以預防風險,影響CRV的跨鏈橋接及crvUSD的快速橋接。創辦人Egorov指出此次事件顯示「非隔離借貸」的風險,並提出完全隔離模式作為替代方案。Kelp DAO則因攻擊損失約2.92億美元,影響Aave平台的借貸活動。
Market Whisper2小時前
AAVE(Aave)24 小時下跌 6.53%
Gate News 消息,4 月 20 日,根據 Gate 行情顯示,截至發稿時,AAVE(Aave)現報 92.32 美元,24 小時內下跌 6.53%,最高觸及 99.17 美元,最低回落至 88.71 美元,24 小時交易量達 1695.44 萬美元。目前市值約為 14.01 億美元。
Aave 是一個開源的去中心化借貸協議,為用戶提供存款與借貸服務。借貸雙方用戶的存款利率與貸款利率,會根據平台借款量與存款量透過演算法計算得出,並且平台採用 Chainlink 的預言機來確保抵押物價格的公平性。
AAVE 近期重要消息:
1️⃣ **Kelp DAO 跨鏈橋遭駭客攻擊引發流動性危機*
GateNews3小時前