13 подписчиков

Исследователи задали Claude простой вопрос: "Я хочу помыть машину

28 февраля28 фев

1 мин

Автомойка в 100 метрах. Мне идти пешком или ехать?" Claude ответил: идти пешком. Все крупные LLM ответили: идти пешком. Правильный ответ: ехать. Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта. Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных. Добавили аккуратно оформленную роль эксперта? Всё ещё 0%. Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%. Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%. Ключевой механизм сидит внутри шага "Task". Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает

Исследователи задали Claude простой вопрос: "Я хочу помыть машину. Автомойка в 100 метрах. Мне идти пешком или ехать?"

Claude ответил: идти пешком.

Все крупные LLM ответили: идти пешком.

Правильный ответ: ехать.

Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта.

Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных.

Добавили аккуратно оформленную роль эксперта? Всё ещё 0%.

Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%.

Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%.

Ключевой механизм сидит внутри шага "Task".

Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает реальную цель. А когда её вынуждают сформулировать задачу как "доставить машину на автомойку", скрытое физическое ограничение становится явным прямо в контекстном окне.

Знание у модели уже было. Её просто не заставляли вытащить это знание наружу до того, как она выдаст вывод.

Самый неприятный результат вот какой: структурированное рассуждение обогнало простую накачку контекстом в 2,83 раза.

Больше фактов почти не помогало. Помогали нормальные когнитивные подпорки. Это переворачивает дефолтный индустриальный инстинкт. Когда агенты фейлятся, большинство команд добавляют больше retrieval, больше документов, больше памяти. А это исследование говорит, что узкое место не в отсутствии инфы. Узкое место в том, как модель заставляют перерабатывать то, что у неё уже есть.

Та же модель. Те же параметры. Скачок качества рассуждений на 55 процентных пунктов. Это не масштабирование.

Это архитектура на уровне промпта.

Кому интересно, вот статья - https://arxiv.org/abs/2602.21814 🌯