Наш рассказ о языковых моделях – данных, на базе которых строятся и работают системы искусственного интеллекта. Что это такое? Как они развивались до сих пор? Что достигнуто? Каких достижений ждать впереди?
Отличие мышления человека от машины
В 1950 году в философском журнале ‘Mind’ была опубликована статья под названием «Вычислительные машины и разум». Ее автор, британский криптограф Алан Тьюринг, предложил научной общественности эмпирический тест . Он придумал метод, который, по его мнению, должен определить, способен ли компьютер мыслить как человек. Точнее, можно ли, не видя собеседника, уверенно сказать, кто за ширмой – человек или компьютер?
Испытуемым в подобном тесте должен выступать человек. Он получает ответы в письменной форме, но не знает, кто именно написал ему текущее сообщение. Сможет ли он назвать, опираясь на полученный ответ, с кем он разговаривает в текущий момент? У него есть право на ошибку. Но если он будет ошибаться слишком часто, то сторонний рефери вынесет вердикт, что испытуемый не смог отличить машину от человека.
Прошло почти 70 лет, как появился другой, упрощенный вариант теста Тьюринга. Он был обнародован в 2018 году исследователем Джоном Маккоем в соавторстве с другими учеными из Массачусетского технологического института. Новый тест получил название ‘Minimal Turing Test’, проводился в два этапа и отличался максимально упрощенными правилами. Сначала участникам опроса (в нем приняло участие 1089 человек) предстояло назвать несколько слов, которые, с их точки зрения, могли безошибочно указывать на то, что они были произнесены человеком.
В результате получился довольно разношерстный список, а тoп-10 самых популярных ответов на них выглядел так: «любовь» (12,3%), «сострадание» (3%), «человеческий» (2,8%), «пожалуйста» (2,3%), «милосердие» (1,7%), «сопереживание» (1,6%), «эмоция» (1,3%), «робот» (1,2%), «человечество» (1,0%), «живой» (0,8%).
Второй этап был противоположен первому: из слов, отобранных на первом этапе, были составлены двухсложные конструкции (прилагательное + существительное), а опрошенные, зная, что часть вариантов составлена компьютером, должны были снова выбрать самые «человеческие» варианты.
Казалось бы, что слово «любовь» должно победить снова. Но опрошенные посчитали иначе: «самым человеческим» на этот раз стало слово “poop” (экскременты человека). Как? Почему? Объяснение этого парадокса достаточно логичное: попавшее в топ слово неявно нарушает табу на слова, принятые в обществе. Опрошенные сочли, что человек хочет дать им сигнал, что это именно он, а не компьютер. С их точки зрения, он дополнял слово эмоцией, причем запрещенность оказалась более значимой для выбора, чем очевидное слово «любовь».
Данный эксперимент показал, что одни и те же слова воспринимаются людьми по-разному и восприятие сильно зависит от контента. Если вы хотите разговаривать (и мыслить) как человек, то необходимо дополнять слова контекстом/эмоциями. Когда компьютер сообщает, то он просто передает смысл. А когда говорят (думают) люди, они сопровождают смысл эмоциями, отражающими отношение к передаваемому смыслу.
Мы рассказали об этом в начале нашего рассказа о языковых моделях не только как о феномене. Это открытие совпало с бумом стремительного роста искусственного интеллекта (ИИ), который выразился сейчас в достигнутом уровне создания больших языковых моделей (LLM).
Что такое LLM
Прежде чем рассказать, какие бывают языковые модели, остановимся на следующем вопросе: что такое язык человеческого общения? Интуитивно мы понимаем язык как основу: язык отражает способность человека к самовыражению и общению, он каким-то образом развивается в нем уже в раннем детстве и обогащается на протяжении всей жизни.
Особенностью компьютеров в их нынешнем понимании является то, что они не обладают такой естественной способностью к пониманию друг друга. Поэтому на первых этапах развития ИИ создание языковых моделей рассматривалось как получение некого подобия человеческого языка. Цель формулировалась следующим образом: развить у компьютеров способность к взаимному общению с себе подобными, как это делают люди.
Но уже на старте сразу стало понятно, что для реализации недостаточно создать новые алгоритмы. Необходимо оснастить компьютеры «знаниями». Их и стали называть «языковыми моделями» (Language Models).
Четыре основных этапа в развитии языковых моделей
Многие уже наслышаны о больших генеративных языковых моделях, но не все знают,...