DeepSeek 上線識圖模式,基於撤回的原語框架支持視覺 CoT 推理

robot
摘要生成中
據動察 Beating 監測,DeepSeek 網頁端和 App 端正式上線識圖模式 (Vision Mode),在對話輸入框上方與快速模式、專家模式並列提供。新上線的視覺理解能力並非簡單的文字識別 (OCR),而是主打深度場景分析、空間邏輯推理以及將 UI 界面截圖直接轉化為 HTML 結構化代碼。對於高難度的幾何推導或複雜圖表分析,系統會自動激活深度思考模型,提供完整的推理鏈條。

識圖模式底層基於 DeepSeek 團隊公布的「以視覺原語思考 (Thinking with Visual Primitives)」研究框架。多模態研究員 Xiaokang Chen 與北京大學、清華大學聯合發表的論文指出,現有視覺語言模型在精細定位和空間推理中存在「指稱缺陷」 (Reference Gap),即難以用模糊的自然語言描述複雜的視覺座標。為此,研究團隊將座標點與邊界框 (Bounding Boxes) 提升為最小思維單位,在模型進行視覺推理的思維鏈 (CoT) 中直接插入空間原語,實現了在思考過程中同步進行空間指向。

作為視覺能力基礎的學術論文與開源項目曾於 4 月 30 日短暫放出,但隨即被 DeepSeek 官方於 5 月 1 日無預警撤回,引發了行業關於技術細節過度洩露以及模型後續優化的諸多猜測。正式上線的識圖模式僅支持圖像輸入,暫不支持視頻、音頻等多模態格式,且模型目前不具備圖像生成能力。
DEEPSEEK-5.30%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆