21 подписчик

DeepMind: видеомодели для визуальных задач как LLM для текста

29 сентября 202529 сен 2025

~1 мин

DeepMind: видеомодели для визуальных задач как LLM для текста Исследователи Google DeepMind считают, что видео-модели вроде Veo 3 могут стать такими же универсальными для работы с визуальными задачами, как большие языковые модели для текста. Они предполагают, что в будущем вместо отдельных моделей для сегментации, распознавания объектов или обработки изображений будет использоваться единая модель, способная выполнять все эти задачи. Подобно тому, как языковые модели переводят,… Подробнее

Исследователи Google DeepMind считают, что видео-модели вроде Veo 3 могут стать такими же универсальными для работы с визуальными задачами, как большие языковые модели для текста.

Они предполагают, что в будущем вместо отдельных моделей для сегментации, распознавания объектов или обработки изображений будет использоваться единая модель, способная выполнять все эти задачи. Подобно тому, как языковые модели переводят,…

Подробнее