14 подписчиков

Исследование из Стэнфорда и Гарварда объясняет, почему системы агентского ИИ впечатляют на демонстрациях, но полностью разваливаются при

ВчераВчера

2 мин

реальном использовании Системы агентского ИИ основаны на больших языковых моделях и взаимодействуют с инструментами, памятью и внешней средой. Они уже поддерживают научные открытия, разработку программного обеспечения и клинические исследования, но всё ещё сталкиваются с ненадёжным использованием инструментов, слабым планированием на длительный срок и плохой генерализацией. В последнем исследовании под названием «Адаптация агентского ИИ» из Стэнфорда, Гарварда, Калифорнийского университета в Беркли и Калифорнийского технологического института предлагается единый взгляд на то, как эти системы должны адаптироваться, и объединяются существующие методы в компактную математически определённую структуру. Как в этом исследовании моделируется система агентского ИИ? Исследование моделирует систему агентского ИИ как агентскую модель на основе фундаментальной модели вместе с тремя ключевыми компонентами: * Модуль планирования разбивает цели на последовательности действий, используя статическ

Исследование из Стэнфорда и Гарварда объясняет, почему системы агентского ИИ впечатляют на демонстрациях, но полностью разваливаются при реальном использовании

Системы агентского ИИ основаны на больших языковых моделях и взаимодействуют с инструментами, памятью и внешней средой. Они уже поддерживают научные открытия, разработку программного обеспечения и клинические исследования, но всё ещё сталкиваются с ненадёжным использованием инструментов, слабым планированием на длительный срок и плохой генерализацией.

В последнем исследовании под названием «Адаптация агентского ИИ» из Стэнфорда, Гарварда, Калифорнийского университета в Беркли и Калифорнийского технологического института предлагается единый взгляд на то, как эти системы должны адаптироваться, и объединяются существующие методы в компактную математически определённую структуру.

Как в этом исследовании моделируется система агентского ИИ?

Исследование моделирует систему агентского ИИ как агентскую модель на основе фундаментальной модели вместе с тремя ключевыми компонентами:

* Модуль планирования разбивает цели на последовательности действий, используя статические процедуры, такие как Chain-of-Thought и Tree-of-Thought, или динамические процедуры, такие как ReAct и Reflexion, которые реагируют на обратную связь.

* Модуль использования инструментов соединяет агента с веб-поисковыми системами, API, средами выполнения кода, протоколами контекстуализации моделей и автоматизацией браузеров.

* Модуль памяти хранит краткосрочный контекст и долгосрочные знания, доступ к которым осуществляется через генерацию с дополненным извлечением.

Адаптация изменяет подсказки или параметры для этих компонентов с помощью контролируемой тонкой настройки, методов, основанных на предпочтениях, таких как прямая оптимизация предпочтений, методов обучения с подкреплением, таких как Proximal Policy Optimization и Group Relative Policy Optimization, и эффективных по параметрам методов, таких как адаптация низкого ранга.

Четыре парадигмы адаптации

В исследовании определены четыре парадигмы адаптации путём комбинирования двух бинарных выборов:

* Первое измерение — это цель: адаптация агента по сравнению с адаптацией инструментов.

* Второе измерение — это сигнал управления: выполнение инструмента по сравнению с выводом агента.

Это даёт A1 и A2 для адаптации агента и T1 и T2 для адаптации инструментов.

A1: адаптация на основе выполнения инструмента — оптимизация агента с использованием обратной связи, полученной в результате выполнения инструмента.

A2: адаптация на основе вывода агента — оптимизация агента с использованием сигнала, определённого только на его конечных выходных данных.

T1: адаптация инструментов без учёта конкретного агента — оптимизация инструментов без ссылки на конкретного агента.

T2: адаптация инструментов под наблюдением агента — оптимизация инструментов под наблюдением со стороны фиксированного агента.

A1: обучение на основе проверяемой обратной связи от инструментов

В A1 агент получает входные данные x, производит структурированный вызов инструмента a, инструменты возвращают результат y, а цель обучения O_tool измеряет успех инструмента, например, п...