После того, как нейросети «подвинули» художников в 2022... Как-то участились разговоры о том, что писатели — следующие.
Но это не так. В этом десятилетии нейросеть писателя не заменит, а, возможно, и в следующем. И причины этого фундаментальны на техническом уровне.
Картинка — статична, текст — динамичен
В этом и есть основная проблема для нейросети при попытке написать книгу. Картинка, сколь бы сложной она ни была, это «застывший момент». Её можно полностью описать настоящим, и каждый её элемент/вариант независим.
Соответственно, картинку сравнительно просто и сгенерировать, и выбрать из сгенерированных. А вот при генерации длинного текста (то бишь романа, или, хотя бы, рассказа) встаёт целая прорва интересных препятствий. Некоторые из которых требуют больших ресурсов, тогда как иные — на порядок большей грубой вычислительной мощи.
Так что я хочу попытаться объяснить, почему писателям «длинной прозы» переживать не стоит, и на их век работы хватит (в отличие от, скажем, рекламщиков или стихоплётов). По одной причине за раз.
1. Это страшное слово «токен»
Оно, на самом деле, не страшное. Это просто фундаментальная единица, которой оперирует нейросеть (в данном случае, текстовая).
Слог, из которого (зачастую) собирается слово. А уже из слов собирается предложение.
Самые распространённые слова умещаются в один токен, для остальных верно среднее правило: «4 буквы — один токен». Проще показать на примере:
Какое отношение это имеет к нашей проблеме? Самое прямое. Нейросети нужно помнить то, что было раньше, чтобы понимать, что будет дальше.
Ей нужно «держать в памяти» то же самое, что и автору: мир во всех его мельчайших подробностях, персонажей с их внешностью, характером и памятью, а, главное, всё то, что происходило в последних главах.
А токенов всего 2048 (у самых современных моделей). Если брать среднее значение в 5 символов на токен, то это ~10 тысяч символов. 1/4 авторского листа. На всё. Да, «память» можно оптимизировать серией трюков, вроде динамических ссылок, применяемых NovelAI, но это проблему не решает (при этом требуя активного участия живого писателя в написании).
И вы спросите: но можно же её увеличить!
Но есть два фундаментальных препятствия:
- Каждое удвоение предельного числа токенов памяти, что способна понять модель — увеличивает время её тренировки в четыре раза.
Именно поэтому модели, способные «понимать» даже 2048 токенов — сегодня «космические технологии». И их обучение требует буквально машино-годы времени видеокарт. - А уже при выполнении модели на сервере — эти самые токены требуют памяти. Точнее, очень быстрой (и очень дорогой) видеопамяти. И лучшая из имеющихся моделей, GPT-NeoX 20B, потребовала не только год физического времени на обучение, но и выдвинула требование в 42 гигабайта этой памяти. Цена вопроса? Полмиллиона рублей.
То есть какие-то серьёзные подвижки здесь требуют работы закона Мура. Только пробивать лбом стену, то есть наращивать объём этой памяти при падении цены, а также вычислительную мощь железа, чтобы получившаяся модель могла с этой памятью работать
И, экстраполируя текущие тенденции в развитии вычислительной техники (двукратный рост производительности примерно раз в четыре года) нетрудно догадаться, что до нужного уровня мы доползём... Нескоро доползём, в общем. И это только первая проблема.
2. Качество генерации
Как выглядит создание картинки? Мы кидаем в SD запрос, и получаем обратно «веер» картинок. Из которых выбираем то, что нравится или правим запрос или генерируем ещё раз.
Есть ли здесь хоть одна удачная картинка, и если да, то какая — решает только человек. Это работает лишь с картинкой (которая, напомню, статична). Но не с текстом.
Потому что текст — последователен. И либо человек будет вычитывать шесть вариантов каждого абзаца, выбирая лучший (но в чем тогда принципиальное отличие такого «нейрописателя» от обычного, кроме скорости работы?)...
Либо нейросеть должна научиться писать хорошо с первой попытки. Так, чтобы текст был последователен в масштабе и не выглядел как бред, к тому же.
В первом случае писателю бояться нечего вообще. Даже если нейросеть научат понимать контекст (лет через десять-пятнадцать, потому что смотрим первый пункт), то это лишь облегчит его труд, не убрав «авторскую душу».
Во втором... А для второго потребуется даже не эволюция, а революция. Нынешние текстовые нейросети буквально «прожевали» всё, написанное человечеством за всю его историю. Нет больше текста, которым можно было бы дополнить базу.
Единственный путь — повышение точности обработки этой базы. Но и здесь мы уже пришли буквально за пятилетку от шести миллионов параметров нейросети к двадцати миллиардам. И чем их больше, тем экспоненциально дольше тренировка со всё уменьшающейся эффективностью.
Выводы о сложности задачи делайте сами. Но и здесь проблемы не кончаются...
3. Трудности перевода
Последняя по списку, но не по значению проблема. Допустим, что модель, способную написать длинный, связный, интересный текст (с помощью писателя или без неё) всё же создадут... Но это текст будет на английском. Хи-хи.
Что вызывает резонный вопрос: переводить как будем?
Автоматика тут не помощник. Даже перевод, основанный на нейросети будет точен по смыслу, но не передаст дух произведения. Труд переводчика — стоит денег, и его резервы ограничены. То есть даже из числа «нейрокниг» переводить будут только уже получившие успех на Западе.
То есть у нас будет то же соотношение зарубежных книг с отечественными, что и сейчас, просто зарубежных писателей заменит нейросеть. Если заменит.
Потому что если появится нейросеть, способная при переводе не только безупречно передать смысл, но и стиль автора — то вешаться впору будет всему человечеству. Ведь это даже живым переводчикам удаётся не всегда, вспоминая сагу о переводах «Властелина колец».
Вместо итога
Тремя тезисами — и так статья затянулась:
- В горизонте десятилетия захвата писательства нейросетями можно не бояться (в отличие от многих других отраслей). По целому ряду чисто технических причин.
- Даже если (когда) это всё же произойдёт — если не изменится парадигма работы нейросети, то писатель останется у руля.
- И даже в худшем из возможных сценариев, если нейросеть заменит писателя — это произойдёт на западе. На постсоветском пространстве она заменит лишь зарубежных авторов в том же объёме, что и раньше, ибо «переводческие ресурсы» ограничены физически. Ну, либо нас завоюет Скайнет.
Подписка, лайк, комментарий на тему — всё, что нужно для поддержки канала. Это несложно:-)