Найти в Дзене

Исследование COCONUT: переработанные состояния снижают обобщение моделей

В недавнем исследовании, проведенном на архитектуре COCONUT, установлено, что использование переработанных скрытых состояний не способствует улучшению обобщения моделей. Авторы эксперимента, проводившие анализ на выборке ProsQA, отметили, что важнейшую роль в результатах играет многоуровневое обучение без учета переработанных состояний. COCONUT, разработанный Meta, утверждает, что его модели могут делать выводы в латентном пространстве с помощью переработанных состояний, достигая при этом 97% на ProsQA, в то время как другие методы, такие как Chain-of-Thought, показывают лишь 77%. Как показали эксперименты, основную функцию обучающих задач выполняло именно многоуровневое обучение, а переработанные состояния лишь снижали качество конечного результата. В исследовании было обучено четыре модели: базовая CoT, COCONUT, модель с фиксированными встраиваниями и многопроходная модель с изоляцией переработанных состояний. Результаты показали, что COCONUT не имеет значительного преимущества перед
Оглавление

В недавнем исследовании, проведенном на архитектуре COCONUT, установлено, что использование переработанных скрытых состояний не способствует улучшению обобщения моделей. Авторы эксперимента, проводившие анализ на выборке ProsQA, отметили, что важнейшую роль в результатах играет многоуровневое обучение без учета переработанных состояний.

Сравнение результатов COCONUT с альтернативами

COCONUT, разработанный Meta, утверждает, что его модели могут делать выводы в латентном пространстве с помощью переработанных состояний, достигая при этом 97% на ProsQA, в то время как другие методы, такие как Chain-of-Thought, показывают лишь 77%. Как показали эксперименты, основную функцию обучающих задач выполняло именно многоуровневое обучение, а переработанные состояния лишь снижали качество конечного результата.

Рекомендации для улучшения обобщения моделей

В исследовании было обучено четыре модели: базовая CoT, COCONUT, модель с фиксированными встраиваниями и многопроходная модель с изоляцией переработанных состояний. Результаты показали, что COCONUT не имеет значительного преимущества перед альтернативными подходами. При работе с OOD-задачами (задачами вне диапазона обучающих данных) переработанные состояния даже приводили к избыточной уверенности модели, создавая иллюзию успешных прогнозов.

Результаты исследования показывают, что простого модернизирования архитектуры недостаточно – необходимо учитывать специфические особенности обучения и структуры для достижения лучших результатов. Внедрение многоуровневого обучения может оказаться более значимым, чем переработка состояний.

Авторы исследования ищут обратную связь от сообщества и, возможно, продолжат исследование, расширяя выборку и тестируя более сложные задачи.

The post Исследование COCONUT: переработанные состояния снижают обобщение моделей appeared first on itech-news.