Искусственный интеллект все глубже проникает в нашу жизнь, становясь незаменимым помощником в работе, учебе и повседневных задачах. Но как эти системы на самом деле работают? Как нейросети "понимают" язык и генерируют ответы? Эти вопросы раскрывает Эдуард Клышинский, эксперт по компьютерной лингвистике, в беседе с ведущим проекта "Основы" Борисом Леденским.
Цифровая основа языка
В основе работы нейросетей лежит преобразование всей информации в числа. "Я как программист говорю, что все на свете есть число. Если оно не число, то ко мне можно не подходить. Пока не оцифруешь, я это программировать не буду," — объясняет Клышинский.
Когда мы говорим в микрофон, наш голос преобразуется в цифровой сигнал. Аналогичным образом, текст в компьютере — это тоже набор чисел. Нейросеть работает с этими числами, обрабатывая их через сложную систему слоев и связей.
Многомерное пространство смыслов
Один из ключевых принципов работы современных языковых моделей — представление слов в многомерном пространстве. В этом пространстве слова со схожими значениями располагаются рядом.
"Мы подаем текст на английском языке, она нам размещает какие-то слова в каких-то местах. Мы подаем текст на французском языке, она размещает слова как-то по-другому. Мы ей говорим: подожди, у меня есть словарь. В словаре написано 'I love you' — 'Я люблю тебя'... давай ты эти фразы будешь размещать в одном и том же месте," — описывает эксперт.
Благодаря такому подходу нейросеть начинает "понимать", что фразы на разных языках могут иметь одно и то же значение. Это позволило создать мультиязычные модели, которые эффективно работают с десятками языков.
От простого к сложному
Нейронная сеть состоит из множества слоев, каждый из которых обрабатывает информацию на разном уровне абстракции. Первые слои распознают простые паттерны — отдельные символы или простые сочетания. Последующие слои обрабатывают все более сложные конструкции.
"У меня есть картинка, на которой нарисован котик. Я беру 16 пикселей, на них внимательно смотрю и говорю, что здесь нарисована черточка... Это какой-то очень простой примитив. Представим себе, что я рассматриваю слона одним пальцем. Я слепой, я в него тычу и пытаюсь почувствовать, что здесь в этом пальчике. После того, как я провел по слону много раз, я оценил рисунок побольше," — приводит метафору Клышинский.
Обучение через наказание и поощрение
Современные нейросети обучаются не только на текстах из интернета, но и с помощью людей, которые оценивают их ответы. Им показывают, что хорошо, а что плохо — примерно так же, как учат детей:
"Тут же написано, я беру 3, умножаю его на 3 и получаю 9. Почему ты в первый раз 8 сказал? Галлюцинирую. Имею право. Хочу. Но в следующий раз скажешь, в табло получишь. Понятно? Да, белый господин," — образно описывает эксперт процесс обучения.
Этические фильтры и их устройство
Важный аспект работы языковых моделей — этические фильтры, предотвращающие генерацию опасного или неприемлемого контента. Это не просто список запрещенных слов, а сложная система, которая постоянно совершенствуется:
"Мы составили список, мы его дали людям, они поговорили, мы поняли, про какие слова произносить нельзя в приличном обществе. А дальше каждый раз, когда вы отправляете запрос к нейросети, он отправляется в журнал. Это всё журналируется, журнал обобщается... А дальше там раз случайным образом начинаем смотреть. О чём мы тут говорили?"
Искусственный интеллект общего назначения
Говоря о будущем искусственного интеллекта, эксперты обсуждают концепцию General AI — искусственного интеллекта общего назначения, способного решать широкий спектр задач и взаимодействовать с физическим миром:
"Вот этот самый робот, который в Я-робот бегает и приносит сумочку. Он вообще-то для чего угодно. И сейчас на самом деле уже существует непустое множество этих самых роботов, которые могут помогать на кухне, среди прочего."
Интересно, что развитие языковых моделей способствует прогрессу в робототехнике. Оказалось, что роботы лучше учатся выполнять физические действия, когда им "объясняют" задачу словами:
"Если обучать не только по видео, но и по тексту, который при этом произносит человек, обучение идет еще лучше. Языковые модели, когда им говоришь 'ну ты подумай, как решать задачу', оно начинает вербализировать это самое решение... Оказывается, это и помогает, когда ты проговариваешь, что ты делаешь руками."
Средний кофе для всех
Подводя итоги разговора, Клышинский сравнивает ChatGPT с кофе из "Макдональдса":
"Они в свое время провели исследование, какой кофе нравится людям в большинстве своем. И сделали такой средненький кофе на средненький вкус. От него нельзя ожидать какого-то гениального взрыва вкуса. Он точно не будет отвратительный. Он нравится 63% посетителей. Если он будет нравиться 65%, у них подскочит продажа, и все будет замечательно."
Так же и с нейросетями — разработчики стремятся создать продукт, который будет достаточно хорош для большинства пользователей и задач, даже если он не сможет достичь гениальности в конкретных областях:
"Как с нейросетью. Сидит менеджер, щелкает кнутом и говорит, что нам нужен кофе, который нравится большему количеству людей. Не больше разного кофе, а более средний кофе, который понравится всем. Ну, вот ChatGPT пытаются сделать примерно то же самое. Средний кофе."
Искусственный интеллект продолжает стремительно развиваться, заставляя нас переосмыслить понятия интеллекта, понимания и общения. Хотя современные нейросети еще не достигли уровня человеческого мышления во всех аспектах, их способности впечатляют и заставляют задуматься о том, что ждет нас в будущем.