768 подписчиков

Следующий этап в развитии генеративного ИИ. Почему будущее генеративного ИИ за визуальным контролем

4 марта4 мар

3 мин

Сидите вы вечером, и решаете сгенерировать какое-нибудь изображение для работы, соцсетей или просто для себя. Пишите, как вам кажется идеальный промт, например, черный дракон парит над замком в грозу, невероятная детализация, фотореализм. Нажимаете кнопку, пара секунд ожидания и нейросеть выдает вам… маленького дракончика размером с котенка, который сидит на крыше и глупо улыбается. Давайте честно признаем что любой, кто хотя бы пару раз пользовался нейросетями, сталкивался с такой проблемой. Пишите промт, надеетесь на один результат, а в итоге получаете совершенно не то. Знакомо? Это, как мне кажется, и есть главная проблема современных генеративных нейросетей. По-сути процесс напоминает игру в рулетку. Вы пишете промпт, нажимаете кнопку, и никогда не знаете, что именно выпадет. И вот вчера, задумавшись об этом, я подумал о следующем. А что, если дать нам, пользователям, настоящие инструменты управления? Представьте себе интерфейс, где вы не подбираете слова, чтобы объяснить ИИ, где

Давайте честно признаем что любой, кто хотя бы пару раз пользовался нейросетями, сталкивался с такой проблемой. Пишите промт, надеетесь на один результат, а в итоге получаете совершенно не то. Знакомо?

Это, как мне кажется, и есть главная проблема современных генеративных нейросетей. По-сути процесс напоминает игру в рулетку. Вы пишете промпт, нажимаете кнопку, и никогда не знаете, что именно выпадет.

И вот вчера, задумавшись об этом, я подумал о следующем. А что, если дать нам, пользователям, настоящие инструменты управления? Представьте себе интерфейс, где вы не подбираете слова, чтобы объяснить ИИ, где должен стоять человек, а просто ставите точку на экране и пишите: "Он будет здесь". Ставите простую направляющую и нейросеть понимает, в какую сторону персонаж должен смотреть. Красота, правда?

Мне эта идея показалась настолько логичной и очевидной, что я, конечно, полез в интернет проверять, а не изобретаю ли я велосипед. И знаете что? Само собой идея оказалась не просто "в воздухе", она уже активно реализуется ведущими лабораториями и стартапами.

Следующий этап развития

Если раньше компании гонялись за мощностью моделей (кто больше, у кого больше параметров), то сейчас наступил кризис данных и ресурсов. Оказалось, что бесконечно растить модели невозможно, не хватает ни данных для их обучения, ни дата-центров для их работы. И тогда разработчики задались другим вопросом, а как сделать так, чтобы ИИ наконец-то начал нас понимать, а не просто угадывать?

Проблема в том, что язык штука неточная. Словами очень трудно описать геометрию для понимания нейросети. Мы говорим "слева", но для ИИ это абстрактное понятие. А вот если бы мы могли показать ей схему, чертеж, набросок, то это изменило бы дело, и это именно то, о чем я подумал, и то, над чем сегодня бьются лучшие умы.

Оказалось, что инженеры уже вовсю пилят рабочие решения. И это невероятно захватывающе. Например, проект Cartwheel от Google. Ребята сделали гениальную в своей простоте вещь, они дают пользователю 3D-манекен. Хотите сгенерировать персонажа в прыжке? Не надо писать "динамичный прыжок с вытянутой рукой". Просто покрутите манекен, согните ему ноги, отогните руку и нейросеть дорисует все остальное, строго следуя заданной позе. И результаты, кстати, впечатляют.

Другой пример - TopoDiff. Здесь ученые пошли еще дальше и предложили управлять не просто позами, а связями между объектами. Они создали язык описания сцены. Вы задаете не координаты, а отношения, объект А находится над объектом Б, объект В находится внутри Г. И нейросеть, даже если она никогда не видела такой композиции, вынуждена подчиниться вашей логике.

А есть еще SemanticDraw, который работает в режиме реального времени. Вы буквально рисуете пальцем или мышкой область на холсте, подписываете ее, и через долю секунды в этой области уже предмет или человек. Вы можете двигать его, менять размеры, и картинка будет меняться прямо у вас на глазах. Это уже не просто генерация, это интерактив какой-то.

Понимаете, к чему я веду? Сейчас мы стоим на этапе, когда человечество делает следующий шаг в развитии ИИ. Текст как основной способ общения с нейросетью постепенно будет уходить в прошлое, конечно, не прямо сейчас, но уже и не через десятки лет.

Многие спросят, а зачем? Ну, научился я писать промпты, подбираю слова, и меня в целом всё устраивает. Так думает большинство, пока не столкнется с профессиональной задачей.

То, что вы представляете у себя в голове, никогда на 100% не совпадет с тем, что представила машина. А вот эскиз от руки или расставленные направляющие - это уже не интерпретация, это прямое указание. Поэтому разработка систем визуального управления, это не просто модный тренд. Это следующий этап.

Идея "указательной или моделируемой генерации", как я ее назвал про себя, - это закономерный следующий шаг. Процесс уже пошел, и это, согласитесь, чертовски захватывающе.

Гаджеты и электроника

5,73 млн интересуются