币界網消息,andon labs發布的Blueprint-Bench 2是一個測試AI空間推理能力的評估基準,要求agent根據約20張室內照片生成準確的2D戶型圖。此次測試引入了跨任務的「記事本」系統,允許agent在處理50套公寓時記錄布局規律並優化生成策略。測評結果顯示,gpt-5.5、gemini 3.1 pro和claude opus 4.7穩居前三,首次展現了從2D照片理解真實空間的能力。例如,gemini 3.1 pro能通過不同照片中的洗衣機推斷相機拍攝朝向,gpt-5.5則通過門框位置推斷臥室與走廊的連通性。同時,gemini robotics-er 1.6的表現低於預期,得分甚至低於輕量級的gemini 3 flash,表明其空間特長未成功轉化為戶型生成能力。
Blueprint-Bench 2發布:AI首次展現基於2D照片的真實空間推理能力
币界網消息,andon labs發布的Blueprint-Bench 2是一個測試AI空間推理能力的評估基準,要求agent根據約20張室內照片生成準確的2D戶型圖。此次測試引入了跨任務的「記事本」系統,允許agent在處理50套公寓時記錄布局規律並優化生成策略。測評結果顯示,gpt-5.5、gemini 3.1 pro和claude opus 4.7穩居前三,首次展現了從2D照片理解真實空間的能力。例如,gemini 3.1 pro能通過不同照片中的洗衣機推斷相機拍攝朝向,gpt-5.5則通過門框位置推斷臥室與走廊的連通性。同時,gemini robotics-er 1.6的表現低於預期,得分甚至低於輕量級的gemini 3 flash,表明其空間特長未成功轉化為戶型生成能力。