Найти в Дзене

Исследователи из команды машинного обучения Apple опубликовали работу, которая ставит под сомнение способности современных «рассуждающих

Исследователи из команды машинного обучения Apple опубликовали работу, которая ставит под сомнение способности современных «рассуждающих» языковых моделей к настоящему мышлению. Команда под руководством Паршина Шоджаи изучила так называемые Large Reasoning Models (LRM) — модели, которые генерируют развернутые мыслительные процессы перед выдачей ответа. И выводы получились довольно неутешительными для адептов искусственного интеллекта. Оказалось, что эти продвинутые модели демонстрируют полный провал точности при превышении определенного уровня сложности задач. Более того, они показывают парадоксальное поведение: усилия на «размышления» растут с усложнением проблемы до определенной точки, а затем резко снижаются, несмотря на достаточный лимит токенов. Похоже на студента, который сначала старательно решает простые примеры, а потом сдается перед сложными уравнениями. Сравнивая LRM с обычными языковыми моделями при равных вычислительных ресурсах, исследователи выделили три режима работы.

Исследователи из команды машинного обучения Apple опубликовали работу, которая ставит под сомнение способности современных «рассуждающих» языковых моделей к настоящему мышлению. Команда под руководством Паршина Шоджаи изучила так называемые Large Reasoning Models (LRM) — модели, которые генерируют развернутые мыслительные процессы перед выдачей ответа. И выводы получились довольно неутешительными для адептов искусственного интеллекта.

Оказалось, что эти продвинутые модели демонстрируют полный провал точности при превышении определенного уровня сложности задач. Более того, они показывают парадоксальное поведение: усилия на «размышления» растут с усложнением проблемы до определенной точки, а затем резко снижаются, несмотря на достаточный лимит токенов. Похоже на студента, который сначала старательно решает простые примеры, а потом сдается перед сложными уравнениями.

Сравнивая LRM с обычными языковыми моделями при равных вычислительных ресурсах, исследователи выделили три режима работы. На простых задачах стандартные модели неожиданно превосходят «рассуждающие» аналоги — видимо, лишние размышления только мешают. На задачах средней сложности дополнительное «обдумывание» LRM дает преимущество. А вот на сложных задачах обе категории моделей терпят полное фиаско.

Главный вывод исследования заключается в том, что LRM не умеют по-настоящему рассуждать — они просто используют значительно более сложное сопоставление с образцами, чем обычные LLM. Модели не способны применять явные алгоритмы и демонстрируют непоследовательность в рассуждениях across различных головоломок. Так что все эти впечатляющие «цепочки размышлений» оказываются лишь более изощренной имитацией мышления, а не его подлинным проявлением.

@fixed