Добавить в корзинуПозвонить
Найти в Дзене

Ученые сделали ошеломляющее открытие о том, как на самом деле работает ИИ

Некоторое время назад эксперты и ученые в области машинного обучения заметили нечто странное в больших языковых моделях (LLM), таких как GPT-3 от OpenAI и LaMDA от Google: они необъяснимо хорошо справляются с задачами, для выполнения которых их специально не обучали. Это сложный вопрос и всего лишь один пример того, как может быть трудно, если не невозможно в большинстве случаев, объяснить, как модель ИИ достигает своих результатов в мельчайших деталях. В исследовании, опубликованном на arXiv, исследователи из Массачусетского технологического института, Стэнфордского университета и Google исследуют это “явно загадочное” явление, которое называется “in-context learning” (прим. обучение в контексте). Обычно для выполнения новой задачи большинство моделей машинного обучения необходимо переучивать на новые данные, процесс, который обычно может потребовать от исследователей ввода тысяч точек данных, чтобы получить желаемый результат — утомительное и трудоемкое занятие. Но благодаря обучению

Некоторое время назад эксперты и ученые в области машинного обучения заметили нечто странное в больших языковых моделях (LLM), таких как GPT-3 от OpenAI и LaMDA от Google: они необъяснимо хорошо справляются с задачами, для выполнения которых их специально не обучали. Это сложный вопрос и всего лишь один пример того, как может быть трудно, если не невозможно в большинстве случаев, объяснить, как модель ИИ достигает своих результатов в мельчайших деталях.

В исследовании, опубликованном на arXiv, исследователи из Массачусетского технологического института, Стэнфордского университета и Google исследуют это “явно загадочное” явление, которое называется “in-context learning” (прим. обучение в контексте). Обычно для выполнения новой задачи большинство моделей машинного обучения необходимо переучивать на новые данные, процесс, который обычно может потребовать от исследователей ввода тысяч точек данных, чтобы получить желаемый результат — утомительное и трудоемкое занятие.

Но благодаря обучению в контексте система может научиться надежно выполнять новые задачи всего на нескольких примерах, по сути, приобретая новые навыки на лету. Получив запрос, языковая модель может получить список входных и выходных данных и создать новые, часто правильные прогнозы относительно задачи, для которой она явно не была обучена. Такое поведение очень хорошо подходит для исследований в области машинного обучения, и выяснение того, как и почему это происходит, может дать бесценную информацию о том, как языковые модели изучают и хранят информацию.

Но благодаря обучению в контексте система может научиться надежно выполнять новые задачи всего на нескольких примерах, по сути, приобретая новые навыки на лету. Получив запрос, языковая модель может получить список входных и выходных данных и создать новые, часто правильные прогнозы относительно задачи, для которой она явно не была обучена. Такое поведение очень хорошо подходит для исследований в области машинного обучения, и выяснение того, как и почему это происходит, может дать бесценную информацию о том, как языковые модели изучают и хранят информацию.

Но в чем разница в модели, которая учится, а не просто запоминает?

Обучение переплетается с существующими знаниями. Мы показываем, что эти модели могут учиться на примерах ”на лету" без каких-либо изменений параметров, которые мы применяем к модели.Экин Акьюрек, ведущий автор исследования

Другими словами, эти более крупные модели работают путем внутреннего создания и обучения более мелких и простых языковых моделей. Концепцию легче понять, если представить ее в виде сценария "компьютер внутри компьютера" в виде матрешки.

Что касается результатов команды, исследователь Марк Льюис сказал в заявлении, что исследование является “ступенькой к пониманию того, как модели могут изучать более сложные задачи, и поможет исследователям разработать лучшие методы обучения языковых моделей для дальнейшего повышения их производительности”.

Хотя Акьюрек согласен с тем, что языковые модели, такие как GPT-3, откроют новые возможности для науки, он говорит, что они уже изменили способ получения и обработки информации людьми. В то время как ранее ввод запроса в Google извлекал только информацию, а мы, люди, отвечали за выбор, какая информация лучше всего подходит для выполнения этого запроса, “Теперь GPT может извлекать информацию из Интернета, а также обрабатывать ее для вас”.

Конечно, передача обработки информации автоматизированным системам сопряжена со всевозможными новыми проблемами. Исследователи этики ИИ неоднократно показывали, как такие системы, как ChatGPT, воспроизводят сексистские и расистские предубеждения, которые трудно смягчить и невозможно полностью устранить. Многие утверждают, что просто невозможно предотвратить этот вред, когда модели ИИ приближаются к размеру и сложности чего-то вроде GPT-3.

Хотя по-прежнему существует большая неопределенность в отношении того, какие будущие модели обучения смогут выполнять и даже в отношении того, что нынешние модели могут делать сегодня, в исследовании делается вывод о том, что контекстное обучение в конечном итоге может быть использовано для решения многих проблем, с которыми исследователи машинного обучения, несомненно, столкнутся в будущем.

Перевод статьи "Scientists Made a Mind-Bending Discovery About How AI Actually Works" by Tatyana Woodall

Если статья показалась вам интересной, буду признателен за подписку на мой телеграм-канал, если хотите больше материалов на тему IT, AI, технологий и трендов.

#технологии #ии #google #chatgpt #будущее