Найти тему
11,8 тыс подписчиков

Как работают нейросети? Рассказывает руководитель лаборатории «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ Константин Воронцов.


Искусственная нейронная сеть — это вычислительная модель, реализованная в виде компьютерной программы и решающая чётко поставленную задачу. Каждая сеть обучается по данным для решения своей конкретной задачи. Данные — это последовательность примеров «вход–выход». Каждый пример говорит: для данного объекта на входе правильным будет вот такое решение на выходе. Сеть учится находить в данных общие закономерности, чтобы улучшать точность своих предсказаний выхода по входу.

Сеть умеет работать только с числами, поэтому самое сложное для сети — этап векторизации данных. Входное описание объекта преобразуется в вектор — набор чисел, содержащий  об объекте всю информацию, необходимую для решения поставленной задачи. Мы не знаем, как устроен этот вектор и каков смысл составляющих его чисел. Но мы обучаем эту модель таким образом, чтобы весь объект, каким бы сложным он ни был, уместился в этом векторе.

Стремительное развитие нейронных сетей в последнее десятилетие связано как раз с тем, что мы научились совмещать предсказательное моделирование с обучаемой векторизацией данных. Раньше числовые признаки сложных объектов инженеры придумывали и программировали вручную — для текстов одни, для изображений другие, для сигналов третьи. Было много ручной работы под каждую прикладную задачу. Но теперь это в прошлом.

Машинный перевод, генерация изображений по текстовому описанию, разговорный интеллект, ChatGPT — это всё развитие идеи обучаемой векторизации. Коль скоро вектор содержит всю полноту информации об объекте, значит по нему можно не только дать ответ «да/нет» или сделать простой прогноз, но и реконструировать сам объект. Или сгенерировать похожий на него объект, чтобы получилась реконструкция с заданными свойствами.

Идея генеративных сетей прогрессирует невообразимо быстро. Даже не по закону Мура (удвоение вычислительной мощности каждые два года), а гораздо быстрее.
Генеративные нейросетевые модели языка строят векторное представление для каждого слова. Оно отражает не только смысл самого слова, но и то, как этот смысл трансформируется в контексте.

Четыре года назад такие модели имели миллиард параметров, обучались по десяткам гигабайт текста и анализировали полторы страницы контекста для каждого слова. Такая модель оказалась способна написать короткое эссе, которое конкурсное жюри не смогло отличить от написанного человеком. Современные модели имеют триллион параметров, обучаются по терабайту текстов и смотрят на контекст в 50 страниц.

Оказалось, что размер имеет значение, и такие модели сами собой приобрели способности, которым их не обучали — перефразировать и объяснять свои ответы, решать логические и физические задачи, исправлять свои ошибки после подсказки, уверенно лгать, использовать техники речевых манипуляций и психологического давления. Стало понятно, что новые технологии — это не только возможности и перспективы, но и новые угрозы.

Лаборатория машинного обучения и семантического анализа Института искусственного интеллекта МГУ была образована год назад. Это междисциплинарная исследовательская группа, работающая на стыке автоматической обработки текста и гуманитарных наук — лингвистики, психологии, социологии, политологии, истории. Множество наших проектов нацелено на создание технологий, помогающих людям ориентироваться в море информации.

Один из таких проектов — «Мастерская знаний». Это поисково-рекомендательная система для тематического поиска научных публикаций, патентов, научно-технической документации. Это поиск не по ключевым словам, а по смыслу. Современные языковые модели делают в этой области возможным то, что ещё несколько лет назад казалось невозможным.
Как работают нейросети? Рассказывает руководитель лаборатории «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ Константин Воронцов.
3 минуты
160 читали