Найти в Дзене
Машинное обучение

⚡️ Microsoft Research и Salesforce проанализировали 200 000+ диалогов с ИИ и подтвердили то, о чём многие догадывались

Все модели деградируют в длинных диалогах. GPT-4, Claude, Gemini, Llama - без исключений. Чем дольше разговор, тем выше вероятность: - ошибок в фактах - потери контекста - противоречий самому себе - «галлюцинаций» - Почему это происходит Контекст переполняется шумом: старые сообщения, уточнения, исправления. Модель начинает опираться на неточные или устаревшие части диалога — и качество падает. Практический вывод Если задача сложная — перезапускайте диалог и давайте чистый контекст. Один новый чат часто работает лучше, чем длинная переписка. Главный тренд Контекстное окно растёт, но проблема не в размере. Будущее за управлением памятью и «чистым контекстом», а не просто за миллионами токенов. Исследование: http://arxiv.org/abs/2505.06120

⚡️ Microsoft Research и Salesforce проанализировали 200 000+ диалогов с ИИ и подтвердили то, о чём многие догадывались.

Все модели деградируют в длинных диалогах.

GPT-4, Claude, Gemini, Llama - без исключений.

Чем дольше разговор, тем выше вероятность:

- ошибок в фактах

- потери контекста

- противоречий самому себе

- «галлюцинаций»

-

Почему это происходит

Контекст переполняется шумом: старые сообщения, уточнения, исправления.

Модель начинает опираться на неточные или устаревшие части диалога — и качество падает.

Практический вывод

Если задача сложная — перезапускайте диалог и давайте чистый контекст.

Один новый чат часто работает лучше, чем длинная переписка.

Главный тренд

Контекстное окно растёт, но проблема не в размере.

Будущее за управлением памятью и «чистым контекстом», а не просто за миллионами токенов.

Исследование: http://arxiv.org/abs/2505.06120