Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели
Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей. Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных. Исследователи предложили метод Bayesian Teaching: модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях. Что получилось: - LLM начинают лучше обновлять свои предположения, когда получают новую информацию...