11,9 тыс подписчиков

✔️ DeepSeek раскатал Vision Mode в чат-боте

19 июня19 июн

~1 мин

DeepSeek запустил Vision Mode в веб-версии и мобильном приложении. Режим поддерживает визуальный CoT для сложных задач (геометрические выводы, анализ графиков и прямую конвертацию UI-скринов в HTML). В основе функции лежит работа Thinking with Visual Primitives, в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях. Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT. Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком. Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет. @machinelearning #news #ai #ml

В основе функции лежит работа Thinking with Visual Primitives, в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях.

Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT.

Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком.

Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет.

@machinelearning

#news #ai #ml

Гаджеты и электроника

5,73 млн интересуются