DeepSeek запустил Vision Mode в веб-версии и мобильном приложении. Режим поддерживает визуальный CoT для сложных задач (геометрические выводы, анализ графиков и прямую конвертацию UI-скринов в HTML). В основе функции лежит работа Thinking with Visual Primitives, в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях. Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT. Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком. Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет. @machinelearning #news #ai #ml