Найти в Дзене
ТыжПрограммист

Следующий этап в развитии генеративного ИИ. Почему будущее генеративного ИИ за визуальным контролем

Сидите вы вечером, и решаете сгенерировать какое-нибудь изображение для работы, соцсетей или просто для себя. Пишите, как вам кажется идеальный промт, например, черный дракон парит над замком в грозу, невероятная детализация, фотореализм. Нажимаете кнопку, пара секунд ожидания и нейросеть выдает вам… маленького дракончика размером с котенка, который сидит на крыше и глупо улыбается. Давайте честно признаем что любой, кто хотя бы пару раз пользовался нейросетями, сталкивался с такой проблемой. Пишите промт, надеетесь на один результат, а в итоге получаете совершенно не то. Знакомо? Это, как мне кажется, и есть главная проблема современных генеративных нейросетей. По-сути процесс напоминает игру в рулетку. Вы пишете промпт, нажимаете кнопку, и никогда не знаете, что именно выпадет. И вот вчера, задумавшись об этом, я подумал о следующем. А что, если дать нам, пользователям, настоящие инструменты управления? Представьте себе интерфейс, где вы не подбираете слова, чтобы объяснить ИИ, где

Сидите вы вечером, и решаете сгенерировать какое-нибудь изображение для работы, соцсетей или просто для себя. Пишите, как вам кажется идеальный промт, например, черный дракон парит над замком в грозу, невероятная детализация, фотореализм. Нажимаете кнопку, пара секунд ожидания и нейросеть выдает вам… маленького дракончика размером с котенка, который сидит на крыше и глупо улыбается.

Давайте честно признаем что любой, кто хотя бы пару раз пользовался нейросетями, сталкивался с такой проблемой. Пишите промт, надеетесь на один результат, а в итоге получаете совершенно не то. Знакомо?

Это, как мне кажется, и есть главная проблема современных генеративных нейросетей. По-сути процесс напоминает игру в рулетку. Вы пишете промпт, нажимаете кнопку, и никогда не знаете, что именно выпадет.

И вот вчера, задумавшись об этом, я подумал о следующем. А что, если дать нам, пользователям, настоящие инструменты управления? Представьте себе интерфейс, где вы не подбираете слова, чтобы объяснить ИИ, где должен стоять человек, а просто ставите точку на экране и пишите: "Он будет здесь". Ставите простую направляющую и нейросеть понимает, в какую сторону персонаж должен смотреть. Красота, правда?

Мне эта идея показалась настолько логичной и очевидной, что я, конечно, полез в интернет проверять, а не изобретаю ли я велосипед. И знаете что? Само собой идея оказалась не просто "в воздухе", она уже активно реализуется ведущими лабораториями и стартапами.

-2

Следующий этап развития

Если раньше компании гонялись за мощностью моделей (кто больше, у кого больше параметров), то сейчас наступил кризис данных и ресурсов. Оказалось, что бесконечно растить модели невозможно, не хватает ни данных для их обучения, ни дата-центров для их работы. И тогда разработчики задались другим вопросом, а как сделать так, чтобы ИИ наконец-то начал нас понимать, а не просто угадывать?

Проблема в том, что язык штука неточная. Словами очень трудно описать геометрию для понимания нейросети. Мы говорим "слева", но для ИИ это абстрактное понятие. А вот если бы мы могли показать ей схему, чертеж, набросок, то это изменило бы дело, и это именно то, о чем я подумал, и то, над чем сегодня бьются лучшие умы.

-3

Оказалось, что инженеры уже вовсю пилят рабочие решения. И это невероятно захватывающе. Например, проект Cartwheel от Google. Ребята сделали гениальную в своей простоте вещь, они дают пользователю 3D-манекен. Хотите сгенерировать персонажа в прыжке? Не надо писать "динамичный прыжок с вытянутой рукой". Просто покрутите манекен, согните ему ноги, отогните руку и нейросеть дорисует все остальное, строго следуя заданной позе. И результаты, кстати, впечатляют.

Другой пример - TopoDiff. Здесь ученые пошли еще дальше и предложили управлять не просто позами, а связями между объектами. Они создали язык описания сцены. Вы задаете не координаты, а отношения, объект А находится над объектом Б, объект В находится внутри Г. И нейросеть, даже если она никогда не видела такой композиции, вынуждена подчиниться вашей логике.

А есть еще SemanticDraw, который работает в режиме реального времени. Вы буквально рисуете пальцем или мышкой область на холсте, подписываете ее, и через долю секунды в этой области уже предмет или человек. Вы можете двигать его, менять размеры, и картинка будет меняться прямо у вас на глазах. Это уже не просто генерация, это интерактив какой-то.

-4

Понимаете, к чему я веду? Сейчас мы стоим на этапе, когда человечество делает следующий шаг в развитии ИИ. Текст как основной способ общения с нейросетью постепенно будет уходить в прошлое, конечно, не прямо сейчас, но уже и не через десятки лет.

Многие спросят, а зачем? Ну, научился я писать промпты, подбираю слова, и меня в целом всё устраивает. Так думает большинство, пока не столкнется с профессиональной задачей.

То, что вы представляете у себя в голове, никогда на 100% не совпадет с тем, что представила машина. А вот эскиз от руки или расставленные направляющие - это уже не интерпретация, это прямое указание. Поэтому разработка систем визуального управления, это не просто модный тренд. Это следующий этап.

Идея "указательной или моделируемой генерации", как я ее назвал про себя, - это закономерный следующий шаг. Процесс уже пошел, и это, согласитесь, чертовски захватывающе.