Найти в Дзене
Машинное обучение

Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели

Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей. Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных. Исследователи предложили метод Bayesian Teaching: модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях. Что получилось: - LLM начинают лучше обновлять свои предположения, когда получают новую информацию. - Навык переносится на другие задачи, даже если модель обучали на одном типе задач. - Улучшается принятие решений в условиях неопределённости. Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-

Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели.

Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей.

Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных.

Исследователи предложили метод Bayesian Teaching:

модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях.

Что получилось:

- LLM начинают лучше обновлять свои предположения, когда получают новую информацию.

- Навык переносится на другие задачи, даже если модель обучали на одном типе задач.

- Улучшается принятие решений в условиях неопределённости.

Например, после такого обучения модель, обученная на задаче рекомендаций авиаперелётов, смогла применять тот же принцип рассуждений к выбору отелей и даже к онлайн-шопингу, хотя эти задачи сложнее и для них трудно задать точную байесовскую модель.

Главный вывод исследования:

LLM можно учить стратегиям рассуждения, а не только фактам.

И если обучить модель копировать правильную логику (например, байесовскую), она может переносить этот способ мышления на новые задачи.

https://research.google/blog/teaching-llms-to-reason-like-bayesians/