2 подписчика
Исследователи доказали, что большие языковые модели – не попугаи
Ученые Принстонского университета провели исследование, которое опровергло распространенное утверждение о том, что большие языковые модели (LLM), создающие естественный язык, являются просто «стохастическими попугаями». Этот термин был введен в 2021 году лингвистом Эмили Бендер и означает, что нейронные сети типа GPT-3 или GPT-4 просто комбинируют ранее увиденные фрагменты текста, не понимая их смысла.
Профессор Санджив Арора и его коллега Анирудх Гойал из DeepMind обратились к теории случайных графов, чтобы доказать: когда количество параметров модели и объем данных для обучения увеличиваются, алгоритм начинает формировать свои «навыки», то есть учится понимать иронию и метафоры, выстраивать причинно-следственные связи и так далее. Все это используется для генерации новых текстов.
Исследователи заметили, что эти комбинации навыков изначально не были включены в тренировочные данные. Следовательно, можно заключить, что чат-боты способны к обобщению и творчеству.
Около минуты
30 января 2024