Найти в Дзене

Как появились нейро-мультики: короткая история анимации будущего.

Ещё недавно мультфильм ассоциировался с командой художников, тонной раскадровок и месяцами ручной работы.
Сейчас достаточно текста: «кот-космонавт летит на Марс и играет на гитаре» — и через пару минут нейросеть выдаёт готовый ролик.
Такие ролики называют нейро-мультиками. Разберёмся, откуда всё это взялось и когда вообще началось.
От первых фильтров к «умной» анимации
Путь нейро-мультфильмов начался не с полноценных роликов, а с экспериментов с картинками.

2014–2016: стиль и «галлюцинации» нейросетей
Появились нейросети, которые умели переносить стиль одной картины на другую. Например, превращать обычное фото в «картину в стиле Ван Гога».
Потом начали прогонять через них кадры видео.
Так появились первые ролики, где всё вокруг казалось нарисованным маслом или карандашом.
Это ещё не мультики, но уже важный шаг: нейросеть начала «думать» не только о картинке, но и о последовательности кадров.
2017–2020: генеративные сети (GAN) и первые персонажи.
Генеративные модели научились придумывать лица, предметы и простые персонажи, которых никогда не существовало.
Экспериментаторы начали собирать из этих кадров примитивную анимацию: меняли эмоции, поворачивали голову, заставляли персонажа моргать и говорить. Получались странные, но уже «живые» герои.
С 2021 года: текст → картинка → видео.
Появились мощные модели, которые по одному текстовому запросу создавали детализированные изображения.
Логичный следующий шаг: собрать из последовательности таких картинок видео. Добавили сглаживание движения, физику, эффекты — и родились первые нейро-ролики, которые по ощущению всё больше похожи на настоящий мультфильм.
Параллельно развивались системы синтеза речи: голос можно сгенерировать, изменить возраст, тембр, эмоции. То есть и картинка, и звук теперь рождаются в цифре.
Что такое нейро-мультфильм по сути.
Нейро-мульт — это анимационный ролик, где ключевые этапы создаёт не художник, а нейросеть:

Вы задаёте идею или сценарий: текстом, набором подсказок или даже голосом.
Нейросеть придумывает визуальный стиль: персонажей, фон, цветовую палитру.
Другая модель генерирует последовательность кадров — фактически рисует мультфильм.
Ещё одна модель озвучивает персонажей и добавляет звуки.
Итог собирается в единый ролик, который можно сразу грузить в соцсети.
Человек всё ещё нужен: чтобы формулировать запрос, отбирать удачные варианты, править детали и иногда допиливать монтаж. Но тяжёлая, рутинная часть рисования переходит к машине.

Технология всё ещё сырая:
иногда анимация «ломается»: предметы меняют форму, пропадают детали;
сложно управлять сложным сюжетом и постоянством персонажей;
есть вопросы авторского права и этики: кто автор — человек или нейросеть?
Но прогресс идёт такими темпами, что разница между классической и нейро-анимацией с каждым годом становится всё менее заметной.
2 минуты