13 подписчиков

Meta (запрещёна в России) научила ИИ видеть мир в 3D.

4 декабря4 дек

3 мин

Пока мы тут спорим, нужен ли ChatGPT в утюге, Meta взяла и научила свой искусственный интеллект понимать, что мир-то не плоский. Представили SAM 3 и SAM 3D - и это реально круто, если вы понимаете, о чем речь. Если нет - сейчас объясню так, что даже бабушка поймет. От плоской картинки к объемной реальности Давайте по порядку. У Meta была модель SAM (Segment Anything Model) - она умела вырезать любой объект на фотке по клику. Ткнул пальцем в кота - она вырезала кота. Ткнул в диван - вырезала диван. Магия, но двухмерная. А теперь вышла SAM 3 и SAM 3D. И вот тут начинается настоящий хардкор. Эти модели перестали воспринимать мир как плоскую картинку. Они понимают, что у предметов есть объем, глубина, форма. Что диван - это не просто пятно на фото, а реальный трехмерный объект, который можно повертеть, рассмотреть со всех сторон и даже виртуально засунуть к себе в комнату. Как это работает: объекты SAM 3D Objects - это когда вы делаете обычную фотку на телефон, а нейросетка превращает ее

Оглавление

От плоской картинки к объемной реальности
В-третьих, робототехника. Роботу нужно понимать, что у объектов есть объем, форма, расстояние. Иначе он будет врезаться во все подряд, как ваш Roomba в ножки стульев.

От плоской картинки к объемной реальности

Давайте по порядку. У Meta была модель SAM (Segment Anything Model) - она умела вырезать любой объект на фотке по клику. Ткнул пальцем в кота - она вырезала кота. Ткнул в диван - вырезала диван. Магия, но двухмерная.

А теперь вышла SAM 3 и SAM 3D. И вот тут начинается настоящий хардкор. Эти модели перестали воспринимать мир как плоскую картинку. Они понимают, что у предметов есть объем, глубина, форма. Что диван - это не просто пятно на фото, а реальный трехмерный объект, который можно повертеть, рассмотреть со всех сторон и даже виртуально засунуть к себе в комнату.

Как это работает: объекты

SAM 3D Objects - это когда вы делаете обычную фотку на телефон, а нейросетка превращает ее в 3D-модель. Просто так. По одной фотографии. Не нужно обходить объект со всех сторон, снимать с 50 ракурсов и танцевать с бубном. Одна фотка - и готово.

Причем тут самое интересное. Раньше такие модели учили на идеальных компьютерных рендерах - красивых, чистых, правильных. А в реальной жизни у нас что? Кривые фотки с телефона, засвеченные, размытые, с пальцем в углу кадра. И вот Meta решила эту проблему по-умному.

Как это работает: люди

SAM 3D Body - отдельная история про людей. Эта штука по фотографии восстанавливает не просто силуэт человека, а полноценную 3D-модель тела с позой, формой, всеми изгибами.

И самое крутое - она справляется даже когда половина человека за углом, он стоит в странной позе или его частично закрывает другой объект. Обычные модели в таких случаях идут лесом и выдают какую-то дичь. А эта работает.

Meta даже запилила специальный формат меша MHR (звучит как название робота из фантастики, но это просто формат 3D-модели). Он отдельно хранит скелет и отдельно мягкие ткани. Типа как у настоящего человека - кости и мясо раздельно. Это дает намного более точное понимание того, как тело двигается и выглядит.

Зачем это вообще нужно;

Ну хорошо, скажете вы, научили ИИ делать 3D-модели по фоткам. И что? А вот что.

Во-первых, они уже засунули это в Facebook Marketplace. Теперь можно виртуально "примерить" мебель в своей комнате. Увидел диван в объявлении - бац, и он у тебя в гостиной (виртуально, конечно). Смотришь, подходит или нет. Это реально удобно, если вы хоть раз покупали мебель онлайн и молились, чтобы она влезла.

Во-вторых, это прорыв для AR и VR. Чтобы виртуальная реальность работала нормально, ей нужно понимать геометрию реального мира. А тут как раз эта геометрия и появилась.

В-третьих, робототехника. Роботу нужно понимать, что у объектов есть объем, форма, расстояние. Иначе он будет врезаться во все подряд, как ваш Roomba в ножки стульев.

Если посмотреть на путь SAM, то видна четкая логика. Первая версия - вырежи объект на фото. Вторая - вырежи и отследи объект в видео (время). Третья - пойми объем и геометрию объекта (пространство). Следующий шаг - что, научить модель путешествовать во времени?

Теперь можно брать обычные фотки, миллиарды которых уже есть в интернете, и учить на них. С участием людей, которые говорят "да, эта модель похожа на оригинал" или "нет, это какая-то фигня получилась". Human-in-the-loop, как это называют умные люди.

Правда, учитывая нашу российскую реальность, не удивлюсь, если доступ к этому окажется "ограничен в вашем регионе". Но если есть три буквы и руки, можно попробовать. Загрузите фотку своего кота и посмотрите, как ИИ превратит его в 3D-модель. Или фотку себя. Или своего начальника (для этого есть отдельное применение, о котором лучше не говорить вслух).

Что в итоге;

Для обычного пользователя это означает более крутые AR-фильтры, возможность виртуально примерять мебель и одежду, более реалистичные аватары в метавселенных (если они когда-нибудь случатся, конечно).

Для индустрии это означает новые возможности в робототехнике, автономных системах, виртуальной и дополненной реальности. Это та технология, на которой будут строиться следующие 10 лет развития ИИ.

Так что да, мир снова стал чуть более трехмерным. И это круто.