104 подписчика

Исследование COCONUT: переработанные состояния снижают обобщение моделей

14 марта14 мар

1 мин

В недавнем исследовании, проведенном на архитектуре COCONUT, установлено, что использование переработанных скрытых состояний не способствует улучшению обобщения моделей. Авторы эксперимента, проводившие анализ на выборке ProsQA, отметили, что важнейшую роль в результатах играет многоуровневое обучение без учета переработанных состояний. COCONUT, разработанный Meta, утверждает, что его модели могут делать выводы в латентном пространстве с помощью переработанных состояний, достигая при этом 97% на ProsQA, в то время как другие методы, такие как Chain-of-Thought, показывают лишь 77%. Как показали эксперименты, основную функцию обучающих задач выполняло именно многоуровневое обучение, а переработанные состояния лишь снижали качество конечного результата. В исследовании было обучено четыре модели: базовая CoT, COCONUT, модель с фиксированными встраиваниями и многопроходная модель с изоляцией переработанных состояний. Результаты показали, что COCONUT не имеет значительного преимущества перед

Оглавление

Сравнение результатов COCONUT с альтернативами
Рекомендации для улучшения обобщения моделей

Сравнение результатов COCONUT с альтернативами

COCONUT, разработанный Meta, утверждает, что его модели могут делать выводы в латентном пространстве с помощью переработанных состояний, достигая при этом 97% на ProsQA, в то время как другие методы, такие как Chain-of-Thought, показывают лишь 77%. Как показали эксперименты, основную функцию обучающих задач выполняло именно многоуровневое обучение, а переработанные состояния лишь снижали качество конечного результата.

Исследование COCONUT: переработанные состояния снижают обобщение моделей

Сравнение результатов COCONUT с альтернативами

Рекомендации для улучшения обобщения моделей