По всей видимости, недалёк тот час, когда из всей цепочки людей, занятых в производстве кино и сериалов, останутся действительно нужны только сценаристы.
Пока одни нейронные сети тренируют мастерство дип-фейков, другие учатся понимать естественную речь, а третьи — создавать анимацию из последовательностей поз. Но до сих пор не было способа объединить понимание речи с созданием анимации.
Учёные из университета Карнеги — Меллона создали архитектуру для нейросетей, которая позволяет вводить предложения и физические движения совместно, чтобы нейросеть могла распознать, как язык связан с действиями, жестами и движениями.
Как это работает?
Алгоритм сначала изучает короткие, простые предложения, например, "человек идёт вперёд". Затем более длинные и сложные предложения, такие как "человек делает шаг вперёд, разворачивается и делает ещё один шаг вперёд" или "человек перепрыгивает препятствие на бегу".
Глаголы и наречия описывают действие и скорость/ускорение действия, а существительные и прилагательные описывают места и направления. В идеале учёные хотят анимировать сложные сцены со множеством разных действий, происходящих параллельно или последовательно.
Но на сегодня алгоритм умеет анимировать схематичных человечков из серии "палка-палка-огуречик". Сложность в том, что даже в простых сценах очень много всего происходит одновременно. Например, когда человек идёт, двигаются не только ноги, но и руки, туловище, голова вверх-вниз качается.
Что с этим делать?
Пока — только простые детские мультики, что уже само по себе неплохо. В перспективе, когда нейросети научатся понимать обычную человеческую речь не только конкретно, но и с поддекстами, и когда они освоят все взаимосвязи множества микродвижений, производимых любым телом в любой момент времени, мы получим замену всей киноиндустрии.
Ещё такие нейросети годятся и для управления всякими роботами. Это голосовое управление нового поколения. Пока непонятно, справится ли такой понимающий робот с невнятными инструкциями вашего преподавателя йоги или с классическим "пойди туда, не знаю куда, принеси то, не знаю что". Но что-то из серии "выйди на балкон, открой второй ящик снизу в шкафу справа и найди там иголку, а если нет — посмотри в третьей полке слева" такая машина явно выполнить сможет.
В теории, создатели новой архитектуры не исключают и обратного её применения — чтобы компьютер мог внятно описать словами, что происходит на видео. Но лично мне не терпится увидеть то, во что превратят свои слова сценаристы и писатели будущего.
Интересно? Посмотрите другие материалы канала и подпишитесь. И не забудьте поделиться статьёй в соцсетях!