Найти в Дзене
Prompt_Дзен

Т9 на стероидах: Как генеративные нейросети создают контент

Давным-давно, когда деревья были большими, а мобильные телефоны – кнопочными, в американской компании Tegic Communications придумали алгоритм, который позволял значительно ускорить набор текста в SMS, предсказывая слова на основе наиболее часто встречающихся сочетаний символов. Когда человек начинал вводить слово, система предлагала варианты завершения на основе частоты использования соседних букв. Например, если вводили «прив», Т9 автоматически подсказывал слово «привет», потому что эта комбинация чаще других встречалась в его базе ©https://dzen.ru/prompt_pro В те времена, когда клавиатура представляла собой всего лишь три ряда кнопок с цифрами, это было прорывом. В 1999 году технология стала стандартом для мобильных телефонов во всем мире. К сожалению, изобретение имело недостаток – в стремлении помочь алгоритм предлагал такие «правки», что казалось, будто телефон внезапно взбесился. Все же помнят этот анекдот? Сейчас Т9 — лишь призрак прошлого, который вызывает смех и лёгкую носталь

Давным-давно, когда деревья были большими, а мобильные телефоны – кнопочными, в американской компании Tegic Communications придумали алгоритм, который позволял значительно ускорить набор текста в SMS, предсказывая слова на основе наиболее часто встречающихся сочетаний символов.

Когда человек начинал вводить слово, система предлагала варианты завершения на основе частоты использования соседних букв. Например, если вводили «прив», Т9 автоматически подсказывал слово «привет», потому что эта комбинация чаще других встречалась в его базе ©https://dzen.ru/prompt_pro В те времена, когда клавиатура представляла собой всего лишь три ряда кнопок с цифрами, это было прорывом. В 1999 году технология стала стандартом для мобильных телефонов во всем мире.

К сожалению, изобретение имело недостаток – в стремлении помочь алгоритм предлагал такие «правки», что казалось, будто телефон внезапно взбесился. Все же помнят этот анекдот?

Сейчас Т9 — лишь призрак прошлого, который вызывает смех и лёгкую ностальгию.

Но дело его живёт.

Потому что принцип работы генеративных нейросетей – это сильно развившийся алгоритм автоподсказок Т9. Нейросети генерируют контент схожим образом, только на гораздо более сложном уровне. Они анализируют не только буквы, но и миллионы текстов и определяют, какие слова или фразы статистически вероятнее появятся вместе. Однако, в отличие от Т9, нейросети способны не только предсказывать отдельные слова, но и генерировать связные предложения, абзацы и даже целые статьи. И изображения, и видео, и музыку ©https://dzen.ru/prompt_pro

Если Т9 — это базовый помощник, который лишь завершал наши слова, то генеративные нейросети — это целые фабрики работников, конструирующие полноценные медиа-материалы на основе промпта (запроса пользователя).

Те, кто в первый раз пользуется любой генеративной нейросетью, видят, что искусственный интеллект и нейросети открыли перед нами дивные и прямо-таки фантастические возможности.

Наверное, поэтому многие представляют их как разумные системы, способные понимать и анализировать окружающий мир, подобно людям.

Однако, на самом деле способности и принципы функционирования нейросетей бесконечно далеки от человеческого мышления. Потому что и алгоритм Т9, и алгоритмы нейросетей – это всего лишь чёткая последовательность инструкций, которая задаёт компьютеру правила обработки данных для выполнения определённой задачи. А ставит задачу человек. Машины на такое пока не способны:

А теперь я расскажу, как именно обучаются нейросети, как они обрабатывают информацию и как создают результаты генерации, чтобы вы знали их возможности и ограничения, когда станете применять в собственной практике. Будет немного сложно. И если хотите остановиться, сейчас самое время. Главное-то вы уже знаете 8)

Изображение для коллажа сгенерировано нейросетью Kandinsky
Изображение для коллажа сгенерировано нейросетью Kandinsky

Итак.

Чтобы нейросеть начала генерировать контент, её нужно предварительно обучить.

Основа обучения нейросетей – это набор специально подготовленных материалов: изображений или текстов в оцифрованном виде. Он называется датасетом. Большой, огромный, даже гигантский, но не бесконечный. Это важно.

Алгоритм нейросети, подобно человеческому мозгу, изучает составляющие датасета, сопоставляет их, анализирует и ищет параллели и аналогии ©https://dzen.ru/prompt_pro Чем больше набор, тем лучше нейросеть понимает связи между объектами из него.

Если в датасете не было материалов относительно какой-то темы, модель ничего о ней знать не будет. Например, если нейросети выдать тысячи изображений собак и кошек с отметками, кто есть кто, после обучения она научится различать этих животных на других рисунках, которые раньше не видела. Но получив фото лисы или волка, система запутается.

При этом нейросеть обрабатывает контент совершенно иначе, чем человек.

Люди воспринимают картины и книги в целом, познавая смыслы и не обращая внимания на отдельные составляющие вроде букв и мазков кисти.

Сикстинская мадонна Рафаэля
Сикстинская мадонна Рафаэля

Когда же модель «видит» изображение или «читает» текст, она не понимает их содержание. Она раскладывает рисунок или фразу на отдельные элементы – слова, буквы и пиксели – и описывает их единственным понятным ей языком – языком математики, то есть преобразует в блоки чисел.

И там, где мы видим мадонну Рафаэля во всей её эфемерности, нейросеть различает упорядоченную последовательность цифр – 4096, 4096, 180, 150, 120, 0.7, 0.8, 80, 60, 90, 70, 85, 65, ..., 320, x1, y1, x2, y2, ..., 0.45, 0.15, 0.95, 0.9.

Пример 1. Первичная обработка изображения нейросетью. Декомпозиция на элементы
Пример 1. Первичная обработка изображения нейросетью. Декомпозиция на элементы
Пример 2. Уточнённая обработка изображения нейросетью. Создание последовательности чисел
Пример 2. Уточнённая обработка изображения нейросетью. Создание последовательности чисел

Затем в массивах этих цифровых последовательностей нейросеть отыскивает статистические закономерности – какие блоки чисел встречаются рядом друг с другом чаще других.

При распознавании изображений нейросеть находит такие статистически однотипные цифровые структуры— линии, формы, цветовые сочетания, – которые соответствуют объектам, тем же кошкам и собакам, к примеру, или Мадоннам :-) и опознаёт их на основе статистического анализа. Она сравнивает не реальные образы похожих предметов, а лишь данные о них.

При работе с текстом нейросеть сопоставляет выраженные в цифрах слова и предложения, анализируя их связи и повторения, но также не понимает ни значений слов, ни идей, что за ними стоят. Это похоже на ребёнка, который научился узнавать буквы по очертаниям, но не умеет читать: он различает внешний вид, а не суть ©https://dzen.ru/prompt_pro

Когда нейросети генерируют контент, они, конечно же, не рисуют и не пишут в прямом смысле. В своих цифровых массивах они находят данные, что статистически чаще других встречается рядом с данными из промпта (запроса) пользователя и подставляют их одно за другим в создаваемое изображение или предложение.

Пример 3. При вводе запроса со словом "Дзен" нейросеть просчитывает проценты вероятности для следующего слова. Лидирует слово "Канал", которое нейросеть добавит к "Дзену". Затем она просчитает вероятность для третьего слова, опираясь уже на фразу "Дзен-канал". Чем больше в промпте слов, а в учебном датасете – объектов, тем больше вариантов текста способна сгенерировать нейросеть
Пример 3. При вводе запроса со словом "Дзен" нейросеть просчитывает проценты вероятности для следующего слова. Лидирует слово "Канал", которое нейросеть добавит к "Дзену". Затем она просчитает вероятность для третьего слова, опираясь уже на фразу "Дзен-канал". Чем больше в промпте слов, а в учебном датасете – объектов, тем больше вариантов текста способна сгенерировать нейросеть

То же самое относится к генерации музыки и видео. Цифровая суть данных неизменна, меняется лишь форма, в которой нейросеть выдаёт пользователю результат генерации.

Если подумать, технологию генерации контента нейросетями можно описать так же элементарно, как технологию изготовления бус: у тебя есть общий замысел украшения от заказчика и коробка с бусинами. Ты выбираешь наиболее подходящие по цвету и размеру и по очереди нанизываешь их на верёвочку, стараясь выдать заказчику максимально релевантный результат ;-)))

Кстати, ошибки Т9 тоже эволюционировали вместе с его технологией и сильно влияют на качество выдаваемого результата:

Вот и всё ¯\_(ツ)_/¯

  • В общем, несмотря на кажущуюся «интеллектуальность», нейросети всё ещё остаются просто мощными вычислительными машинами без истинного понимания окружающего мира. То, что мы принимаем за их разум, – всего лишь математические закономерности. Осознание этого помогает не только правильно оценивать возможности и ограничения искусственного интеллекта, но и принимать более осознанные решения, когда мы взаимодействуем с ним в своей жизни.

О современном уровне развития искусственного интеллекта можно прочитать в статьях: