Найти в Дзене
Ясно Понятно

Учёные: ИИ теряется в длинных диалогах

Современные генеративные модели искусственного интеллекта демонстрируют высокая точность при выполнении одиночных запросов — до 90%. Однако в условиях многоступенчатых диалогов их эффективность заметно снижается, что было подтверждено исследованием компаний Microsoft Research и Salesforce, проанализировавших более 200 000 диалогов с моделями GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Исследование выявило несколько существенных ограничений: модели склонны «спешить с ответом», что приводит к «ответному зацеплению» — использованию ошибочных предыдущих ответов для формирования последующих, увеличивая риск ошибок и неправильных интерпретаций. Кроме того, в длинных диалогах наблюдается «раздутие ответа», когда длина ответа увеличивается до 300%, что вызывает галлюцинации и увеличение предположений модели. Несмотря на внедрение механизмов «thinking tokens» в некоторых моделях, таких как o3 и DeepSeek R1, исследования показали снижение способности моделей оставаться
Оглавление
   Соцсети
Соцсети

Современные генеративные модели искусственного интеллекта демонстрируют высокая точность при выполнении одиночных запросов — до 90%. Однако в условиях многоступенчатых диалогов их эффективность заметно снижается, что было подтверждено исследованием компаний Microsoft Research и Salesforce, проанализировавших более 200 000 диалогов с моделями GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4.

Ключевые проблемы при многоступенчатых взаимодействиях

Исследование выявило несколько существенных ограничений: модели склонны «спешить с ответом», что приводит к «ответному зацеплению» — использованию ошибочных предыдущих ответов для формирования последующих, увеличивая риск ошибок и неправильных интерпретаций. Кроме того, в длинных диалогах наблюдается «раздутие ответа», когда длина ответа увеличивается до 300%, что вызывает галлюцинации и увеличение предположений модели.

Влияние механизмов «thinking tokens» и снижение надежности

Несмотря на внедрение механизмов «thinking tokens» в некоторых моделях, таких как o3 и DeepSeek R1, исследования показали снижение способности моделей оставаться «в диалоге» всего на 15%, а надежность работы — на 112%. Это означает, что при использовании в реальных условиях модели демонстрируют меньшую уверенность при ответах.

Риски и рекомендации экспертов

Эксперты предупреждают, что генеративные ИИ могут приносить ложное ощущение достоверности: пользователи склонны воспринимать информацию как абсолютно точную, что в реальности не всегда так. Исследование подчеркивает необходимость осторожного применения таких моделей, особенно для критически важных задач, так как текущие ИИ еще не достигли зрелости для многоступенчатых диалогов в реальной практике.

Другие новости по теме:

Искусственный интеллект понижает производительность работников
Ученые установили, чем опасно для человека чрезмерное использование ИИ
Исследование показало, что чат-боты подвержены тревожности