Найти тему

Вначале было Слово. Алгоритм превращает текст в анимацию

Оглавление
Изображение: Mohamed Hassan с сайта pxhere
Изображение: Mohamed Hassan с сайта pxhere

По всей видимости, недалёк тот час, когда из всей цепочки людей, занятых в производстве кино и сериалов, останутся действительно нужны только сценаристы.

Пока одни нейронные сети тренируют мастерство дип-фейков, другие учатся понимать естественную речь, а третьи — создавать анимацию из последовательностей поз. Но до сих пор не было способа объединить понимание речи с созданием анимации.

Учёные из университета Карнеги — Меллона создали архитектуру для нейросетей, которая позволяет вводить предложения и физические движения совместно, чтобы нейросеть могла распознать, как язык связан с действиями, жестами и движениями.

Как это работает?

Изображение: OpenClipart-Vectors с сайта Pixabay
Изображение: OpenClipart-Vectors с сайта Pixabay

Алгоритм сначала изучает короткие, простые предложения, например, "человек идёт вперёд". Затем более длинные и сложные предложения, такие как "человек делает шаг вперёд, разворачивается и делает ещё один шаг вперёд" или "человек перепрыгивает препятствие на бегу".

Глаголы и наречия описывают действие и скорость/ускорение действия, а существительные и прилагательные описывают места и направления. В идеале учёные хотят анимировать сложные сцены со множеством разных действий, происходящих параллельно или последовательно.

Но на сегодня алгоритм умеет анимировать схематичных человечков из серии "палка-палка-огуречик". Сложность в том, что даже в простых сценах очень много всего происходит одновременно. Например, когда человек идёт, двигаются не только ноги, но и руки, туловище, голова вверх-вниз качается.

Что с этим делать?

Изображение: Jonny Lindner с сайта Pixabay
Изображение: Jonny Lindner с сайта Pixabay

Пока — только простые детские мультики, что уже само по себе неплохо. В перспективе, когда нейросети научатся понимать обычную человеческую речь не только конкретно, но и с поддекстами, и когда они освоят все взаимосвязи множества микродвижений, производимых любым телом в любой момент времени, мы получим замену всей киноиндустрии.

Ещё такие нейросети годятся и для управления всякими роботами. Это голосовое управление нового поколения. Пока непонятно, справится ли такой понимающий робот с невнятными инструкциями вашего преподавателя йоги или с классическим "пойди туда, не знаю куда, принеси то, не знаю что". Но что-то из серии "выйди на балкон, открой второй ящик снизу в шкафу справа и найди там иголку, а если нет — посмотри в третьей полке слева" такая машина явно выполнить сможет.

В теории, создатели новой архитектуры не исключают и обратного её применения — чтобы компьютер мог внятно описать словами, что происходит на видео. Но лично мне не терпится увидеть то, во что превратят свои слова сценаристы и писатели будущего.

Интересно? Посмотрите другие материалы канала и подпишитесь. И не забудьте поделиться статьёй в соцсетях!