Apple поставила под сомнение способность ведущих моделей ИИ к логическим рассуждениям. В исследовании, опубликованном на сайте Apple’s Machine Learning Research, тестировались модели OpenAI, DeepSeek, Anthropic и Google. Результаты оказались неожиданными: при решении сложных задач точность этих систем резко падала. В эксперименте проверили o1 и o3 от OpenAI, R1 от DeepSeek, Claude 3.7 Sonnet от Anthropic и Gemini от Google. Каждой из моделей предлагались четыре классические логические задачи: переправа через реку, прыжки через шашки, укладка блоков и башня Ханоя. Результаты оказались неожиданными. В простых задачах продвинутые модели со способностью к рассуждениям уступали обычным большим языковым моделям. В задачах средней сложности — превосходили их, а при переходе к действительно сложным головоломкам точность стремилась практически к нулю. Даже при предоставлении пошаговых алгоритмов решения, например, для башни Ханоя, качество не улучшалось. Более того, модели вели себя непоследова
В Apple усомнились в способности существующих моделей ИИ рассуждать
11 июня 202511 июн 2025
35
2 мин