Современные генеративные модели искусственного интеллекта демонстрируют высокая точность при выполнении одиночных запросов — до 90%. Однако в условиях многоступенчатых диалогов их эффективность заметно снижается, что было подтверждено исследованием компаний Microsoft Research и Salesforce, проанализировавших более 200 000 диалогов с моделями GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Исследование выявило несколько существенных ограничений: модели склонны «спешить с ответом», что приводит к «ответному зацеплению» — использованию ошибочных предыдущих ответов для формирования последующих, увеличивая риск ошибок и неправильных интерпретаций. Кроме того, в длинных диалогах наблюдается «раздутие ответа», когда длина ответа увеличивается до 300%, что вызывает галлюцинации и увеличение предположений модели. Несмотря на внедрение механизмов «thinking tokens» в некоторых моделях, таких как o3 и DeepSeek R1, исследования показали снижение способности моделей оставаться