Blueprint-Bench 2發布:AI首次展現基於2D照片的真實空間推理能力

币界網消息,andon labs發布的Blueprint-Bench 2是一個測試AI空間推理能力的評估基準,要求agent根據約20張室內照片生成準確的2D戶型圖。此次測試引入了跨任務的「記事本」系統,允許agent在處理50套公寓時記錄布局規律並優化生成策略。測評結果顯示,gpt-5.5、gemini 3.1 pro和claude opus 4.7穩居前三,首次展現了從2D照片理解真實空間的能力。例如,gemini 3.1 pro能通過不同照片中的洗衣機推斷相機拍攝朝向,gpt-5.5則通過門框位置推斷臥室與走廊的連通性。同時,gemini robotics-er 1.6的表現低於預期,得分甚至低於輕量級的gemini 3 flash,表明其空間特長未成功轉化為戶型生成能力。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆