407 подписчиков

Как нейронки пишут тексты

19 января 202419 янв 2024

2 мин

Оглавление

🎓 Пополняем словарный запас
🔍 Ищем закономерности
🔮 Учимся прогнозировать

Один из самых популярных сейчас видов нейросетей — это т.н. чат-боты, сервисы, в которых вы общаетесь с нейросетью, как в чате (ChatGPT, YandexGPT и т.п.). При этом ваш компьютерный собеседник может и диалог о погоде поддержать, и на вопросы ответить, и текст по запросу написать. Как нейросети генерируют слова, фразы и длиннющие тексты? Сегодня в общих чертах познакомимся с этим процессом.

🎓 Пополняем словарный запас

Сначала нейросеть необходимо обучить. Для этого в неё загружают много текстов — книги, статьи, заметки, сайты и т.п. И когда я говорю "много", я имею в виду действительно много: если измерять в классике, то для обучения качественной нейронки потребуется более 5 миллионов романов "Война и мир" по объёму текста.

По мере загрузки в нейросеть тексты разбиваются на маленькие фрагменты — слова, корни слов, слоги, отдельные буквы. Каждый такой фрагмент называют токен, и каждый токен кодируется числовым значением. Именно в таком виде, набором определённых чисел, нейросеть воспринимает показанные ей тексты.

🔍 Ищем закономерности

Как я уже описывал, основной метод обучения нейросетей — это выявление закономерностей. Именно этим и занимаются нейронки, "разгребая" загруженные в них тонны текста. Язык — штука структурированная и закономерная. И если закономерностей не видно в одном телеграм-посте, то в пяти миллионах романов они проявляются, как на ладони, были бы эффективные алгоритмы для их поиска, и хватило бы вычислительной мощности. Основная цель нейронки на этом этапе — понять, какие токены чаще используются вместе, в какой комбинации и в каких случаях.

🔮 Учимся прогнозировать

Накопив достаточный объём данных о взаимосвязях токенов, нейросеть начинает прогнозировать, какие токены с максимальной вероятностью должны идти после введённых (токены в вашем вопросе — это отправная точка, а токены в ответе чат-бота — это результат прогнозирования). По мере обучения нейросеть делает это всё лучше и лучше. Этому процессу помогают ИИ-тренеры, подсказывающие нейросети верные ответы при обучении, а также пользователи, оценивающие ответы нейронки в процессе общения с ней (да, нейросети тоже собирают лайки).

🤖👱🏻‍♂️ Мы не такие уж разные

На первый взгляд этот процесс может показаться каким-то магическим, но если разобраться, мы, люди, обрабатываем информацию приблизительно так же. Привычные там буквы, слова или звуки имеют для нашего мозга сугубо абстрактный смысл, и складываются они во что-то вразумительное как раз на основе закономерностей, которым наш мозг обучается с детства. Сотни различных языков и диалектов, на которых миллиарды людей описывают один и тот же окружающий мир — яркая иллюстрация этого. И идея работы нейросетей не удивительна, учитывая, что они проектировались, опираясь на принципы работы человеческого мозга.

📌 Если сжать всё вышесказанное в одно предложение, то можно сказать, что нейросети понимают наши слова, выявив огромное количество закономерностей в языке, а отвечают нам, научившись на основе этих закономерностей прогнозировать "правильное" сочетание букв и слов в ответе. Увы, никакой магии, сугубо математика и статистика.

================
Полная версия блога "Цифровой чай" – в Telegram. Подписывайтесь.