Добавить в корзинуПозвонить
Найти в Дзене

DeepMind: видеомодели для визуальных задач как LLM для текста

DeepMind: видеомодели для визуальных задач как LLM для текста Исследователи Google DeepMind считают, что видео-модели вроде Veo 3 могут стать такими же универсальными для работы с визуальными задачами, как большие языковые модели для текста. Они предполагают, что в будущем вместо отдельных моделей для сегментации, распознавания объектов или обработки изображений будет использоваться единая модель, способная выполнять все эти задачи. Подобно тому, как языковые модели переводят,… Подробнее

DeepMind: видеомодели для визуальных задач как LLM для текста

Исследователи Google DeepMind считают, что видео-модели вроде Veo 3 могут стать такими же универсальными для работы с визуальными задачами, как большие языковые модели для текста.

Они предполагают, что в будущем вместо отдельных моделей для сегментации, распознавания объектов или обработки изображений будет использоваться единая модель, способная выполнять все эти задачи. Подобно тому, как языковые модели переводят,…

Подробнее