Найти в Дзене

Google решает главную проблему LLM-агентов: они не умеют обновлять убеждения

Языковые модели научили байесовской статистике. 🤨А зачем? LLM все чаще рекомендуют товары, помогают планировать покупки, подстраиваются под пользователей. Но без специального обучения они используют примитивные эвристики — например, предполагают, что все хотят самый дешевый вариант, вместо того чтобы постепенно выводить уникальные предпочтения конкретного человека. 💡Команда Google протестировала модели на задаче рекомендации авиабилетов. LLM должны были за 5 раундов угадать предпочтения синтетических респондентов по четырем параметрам: время вылета, длительность полета, количество пересадок и цена. Проверяли результаты двух типов обучения LLM: 🔮Oracle teaching: Модель получает только правильные варианты. Что не учит модель работать с неопределенностью и адаптироваться в реальном времени. ➕Bayesian teaching: Модель учится использовать принципы байесовской статистики и выбирает неочевидные предложения, чтобы быстрее понять предпочтения пользователя. ❗️Результат Подход с байесовс

Google решает главную проблему LLM-агентов: они не умеют обновлять убеждения

Языковые модели научили байесовской статистике.

🤨А зачем?

LLM все чаще рекомендуют товары, помогают планировать покупки, подстраиваются под пользователей. Но без специального обучения они используют примитивные эвристики — например, предполагают, что все хотят самый дешевый вариант, вместо того чтобы постепенно выводить уникальные предпочтения конкретного человека.

💡Команда Google протестировала модели на задаче рекомендации авиабилетов. LLM должны были за 5 раундов угадать предпочтения синтетических респондентов по четырем параметрам: время вылета, длительность полета, количество пересадок и цена.

Проверяли результаты двух типов обучения LLM:

🔮Oracle teaching: Модель получает только правильные варианты. Что не учит модель работать с неопределенностью и адаптироваться в реальном времени.

➕Bayesian teaching: Модель учится использовать принципы байесовской статистики и выбирает неочевидные предложения, чтобы быстрее понять предпочтения пользователя.

❗️Результат

Подход с байесовской статистикой оказался эффективнее. Модели активно обновляли картину мира с новыми действиями и достигли 80% совпадения с оптимальной стратегией, тогда как обучение только на правильных ответах давало результат хуже.

😇:

Более того, эти навыки не привязаны к одной задаче. Модели, обученные на синтетических данных об авиабилетах, успешно перенесли свою «вероятностную логику» на совершенно другие сферы: рекомендации отелей и реальный веб-шопинг.

➖➖➖

🐈‍⬛Приобрести пакеты в нашем Магазине

💬Присоединиться к сообществу