4 подписчика

Нейросеть, которая видит всё: Как Google уместил ИИ-зрение в 1 ГБ и заставил его работать даже без видеокарты

26 апреля26 апр

3 мин

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI». Давайте проведем мысленный эксперимент. Покажите любой современной популярной нейросети фотографию и спросите: «Что на картинке?». Она блестяще опишет сцену. Но если вы спросите: «Где конкретно находится левая задняя лапа панды?», ИИ начнет «плыть» и выдавать абстрактные ответы. До сегодняшнего дня это было фундаментальной проблемой всего искусственного интеллекта: модели либо хорошо понимали текст, но не ориентировались в пространстве (как CLIP), либо отлично видели границы объектов, но в упор не понимали текстовых команд (как DINO). Но исследователи из Google DeepMind решили эту проблему, выкатив в открытый доступ модель TIPSv2 (Text-Image Pretraining with Spatial awareness). И самое приятное — вам не нужен суперкомпьютер, чтобы запустить эту магию у себя дома. Давайте заглянем под капот и разберемся, как это работает. 🧠 Студент превзошел учителя: Как ИИ заставили «читать» картинку Разрабатывая новую архитектуру, ин

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI».

Давайте проведем мысленный эксперимент. Покажите любой современной популярной нейросети фотографию и спросите: «Что на картинке?». Она блестяще опишет сцену. Но если вы спросите: «Где конкретно находится левая задняя лапа панды?», ИИ начнет «плыть» и выдавать абстрактные ответы.

До сегодняшнего дня это было фундаментальной проблемой всего искусственного интеллекта: модели либо хорошо понимали текст, но не ориентировались в пространстве (как CLIP), либо отлично видели границы объектов, но в упор не понимали текстовых команд (как DINO).

Но исследователи из Google DeepMind решили эту проблему, выкатив в открытый доступ модель TIPSv2 (Text-Image Pretraining with Spatial awareness). И самое приятное — вам не нужен суперкомпьютер, чтобы запустить эту магию у себя дома. Давайте заглянем под капот и разберемся, как это работает.

🧠 Студент превзошел учителя: Как ИИ заставили «читать» картинку

Разрабатывая новую архитектуру, инженеры Google столкнулись с поразительным парадоксом: в задачах точной сегментации маленькая «студенческая» модель, сжатая (дистиллированная) из огромной нейросети, начала легко обыгрывать своего гигантского «учителя».

Стали разбираться и поняли: всё дело в том, как модель учится. В старых версиях ИИ играл в «мозаику» — от него скрывали часть пикселей и просили их угадать. Открытые пиксели нейросеть просто игнорировала. В новой версии TIPSv2 разработчики применили три гениальных хака:

iBOT++: Теперь нейросеть заставляют анализировать вообще всё. Она обязана выдавать точные данные не только для скрытых, но и для абсолютно всех видимых участков изображения. ИИ перестал играть в угадайку и начал вдумчиво «читать» каждый пиксель. Одно только это решение улучшило точность сегментации на 14.1%.
Хитрая экономия памяти (Head-only EMA): Обычно при обучении таких систем в памяти серверов нужно держать две гигантские копии нейросети. Google придумали обновлять только самую последнюю «голову» (проекционный слой) модели. Итог? Потребление ресурсов и количество параметров при обучении сократились на 42% без потери качества!.
Текстовые качели (Multi-granularity): Чтобы ИИ не ленился, ему по очереди скармливают то короткие обрывки текста из интернета, то гигантские и подробнейшие описания от мощной модели Gemini. Модель постоянно находится в тонусе.

💻 Магия локального запуска: Все таланты в одном флаконе на вашем CPU

Что всё это значит для нас, простых пользователей? Обычно, чтобы классифицировать картинку, нужен один ИИ. Чтобы вырезать объект (сегментация) — второй. А чтобы понять глубину резкости — третий.

TIPSv2 умеет делать всё это одновременно из коробки, вообще без дополнительного обучения (zero-shot).

Известный техноблогер Фахд Мирза (Fahd Mirza) уже протестировал новинку локально на Ubuntu. Результаты поражают:

Смешной вес: Базовая версия модели весит менее одного гигабайта (всего 784 мегабайта).
Прощай, дорогая видеокарта: В процессе работы модель практически не потребляет VRAM. Она спокойно, быстро и плавно работает на обычном центральном процессоре (CPU)!.
Понимание без подсказок: Блогер загрузил картинку сгенерированного кота и просто дал список слов. ИИ сам, без всяких тренировок, понял, что это кот, и математически точно отделил его от фона (гор и неба). Более того, модель идеально находит взаимосвязи, понимая, что кот не просто существует, а стоит на камне.

🚀 Подводим итоги

Открытый релиз TIPSv2 на GitHub и Hugging Face — это настоящий подарок для индустрии. Мы получили универсальный, невероятно легкий и умный «глаз» для искусственного интеллекта. Эта малютка может стать идеальным зрением для домашних роботов-пылесосов, систем безопасности, дронов или умных камер на кассах магазинов, где важна работа без интернета и экономия ресурсов.

А вы уже пробовали запускать нейросети для распознавания образов на своем домашнем ПК? Как вы думаете, смогут ли такие компактные ИИ-агенты полностью заменить облачные решения в наших гаджетах? Пишите свои мысли и характеристики компьютеров в комментариях — давайте обсудим!

Не забудьте поставить лайк и подписаться на канал «YAinvest AI», чтобы всегда быть в курсе самых свежих тестов серверного железа, разборов локальных LLM и главных инсайдов из мира высоких технологий. Дальше будет только интереснее!