Theo nền tảng giám sát Beating, DeepSeek đã chính thức ra mắt Vision Mode trên cả hai nền tảng web và ứng dụng, với các tính năng phân tích cảnh sâu, suy luận không gian và khả năng chuyển trực tiếp ảnh chụp màn hình giao diện người dùng thành mã HTML có cấu trúc.
Khả năng tầm nhìn mới được xây dựng dựa trên khung nghiên cứu của DeepSeek mang tên “Thinking with Visual Primitives”, được đồng phát triển với các nhà nghiên cứu từ Đại học Bắc Kinh và Đại học Thanh Hoa. Cách tiếp cận nền tảng này giải quyết các khoảng trống về suy luận không gian trong các mô hình ngôn ngữ thị giác hiện có bằng cách coi các điểm tọa độ và các hộp giới hạn là các đơn vị tư duy cốt lõi, giúp mô hình có thể thực hiện suy luận thị giác với tham chiếu không gian được tích hợp trong quá trình suy luận (inference). Bài báo học thuật nền tảng đã được phát hành tạm thời vào ngày 30 tháng 4 nhưng sau đó DeepSeek rút lại vào ngày 1 tháng 5. Vision Mode hiện chỉ hỗ trợ đầu vào là hình ảnh, không hỗ trợ video hoặc âm thanh, và không có khả năng tạo ảnh.