Корпорация Apple представила результаты собственного исследования, в котором подвергла сомнению умение современных языковых моделей выполнять логические рассуждения. Работа размещена на сайте Machine Learning Research [PDF]. Происходило тестирование продуктов от OpenAI, DeepSeek, Anthropic и Google. Проверку прошли модели o1 и o3 (OpenAI), R1 (DeepSeek), Claude 3.7 Sonnet (Anthropic) и Gemini (Google). Каждой из них предлагались четыре известные головоломки: переправа через реку, прыжки через шашки, укладка блоков и башня Ханоя. В ходе тестов выявлена резкая потеря точности при увеличении сложности заданий. При решении простых задач более мощные модели неожиданно показали результат хуже, чем базовые языковые алгоритмы. На среднем уровне сложности ситуация изменилась, но с переходом к трудным головоломкам производительность падала практически до нуля. Даже наличие пошаговых инструкций не улучшало итог, т. к. модели проявляли непоследовательность, успешно решая одну задачу, но делая элем
Apple усомнилась в логических способностях ИИ-моделей после провала на классических задачах
11 июня 202511 июн 2025
2 мин