DeepSeek запускає режим Vision разом із фреймворком Visual Primitives для просторового міркування

DEEPSEEK-5,30%

За даними моніторингу Beating, DeepSeek офіційно запустила Vision Mode на платформах для вебу й застосунків. Функція включає глибокий аналіз сцен, просторові міркування та можливість перетворювати скріншоти інтерфейсу безпосередньо на HTML-структурований код.

Нова візійна спроможність побудована на дослідницькому фреймворку DeepSeek «Thinking with Visual Primitives», який спільно розробили з дослідниками з Пекінського університету та Університету Цінхуа. Запропонований підхід закриває прогалини в просторових міркуваннях у наявних візуальних мовних моделях, розглядаючи координатні точки й обмежувальні рамки як базові одиниці мислення. Це дає змогу моделі виконувати візуальні міркування з інтегрованим просторовим референсом під час інференсу. Базовий академічний матеріал був ненадовго опублікований 30 квітня, але DeepSeek відкликала його 1 травня. Наразі Vision Mode підтримує лише введення зображень — без відео чи аудіо — і не має можливостей для генерації зображень.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів