В недавнем исследовании, проведенном на архитектуре COCONUT, установлено, что использование переработанных скрытых состояний не способствует улучшению обобщения моделей. Авторы эксперимента, проводившие анализ на выборке ProsQA, отметили, что важнейшую роль в результатах играет многоуровневое обучение без учета переработанных состояний. COCONUT, разработанный Meta, утверждает, что его модели могут делать выводы в латентном пространстве с помощью переработанных состояний, достигая при этом 97% на ProsQA, в то время как другие методы, такие как Chain-of-Thought, показывают лишь 77%. Как показали эксперименты, основную функцию обучающих задач выполняло именно многоуровневое обучение, а переработанные состояния лишь снижали качество конечного результата. В исследовании было обучено четыре модели: базовая CoT, COCONUT, модель с фиксированными встраиваниями и многопроходная модель с изоляцией переработанных состояний. Результаты показали, что COCONUT не имеет значительного преимущества перед
Исследование COCONUT: переработанные состояния снижают обобщение моделей
14 марта14 мар
1 мин