Автомойка в 100 метрах. Мне идти пешком или ехать?" Claude ответил: идти пешком. Все крупные LLM ответили: идти пешком. Правильный ответ: ехать. Машина должна оказаться на мойке. И вот что самое дикое: в модели не поменялось вообще ничего. Поменялась только архитектура промпта. Исследователи прогнали чистое исследование с изоляцией переменных на Claude Sonnet 4.5. Голый промпт? 0% правильных. Добавили аккуратно оформленную роль эксперта? Всё ещё 0%. Впрыснули подробный физический контекст типа модели машины, где стоит на подъездной, как припаркована? 30%. Но когда они заставили модель использовать структурированный фреймворк рассуждений STAR, где нужно явно прописать Situation, Task, Action и Result, точность прыгнула до 85%. Если совместить STAR с профайл-данными, получалось 95%. Добавили сверху RAG и дошли до 100%. Ключевой механизм сидит внутри шага "Task". Без структуры модель цепляется за эвристику по расстоянию: "100 метров близко, значит иди", и вообще не обрабатывает
Исследователи задали Claude простой вопрос: "Я хочу помыть машину
28 февраля28 фев
4
1 мин