39 подписчиков

очень важно: Справляются ли LLM-модели (большие языковые модели) с длинными диалогами из многих ходов

17 мая 202517 мая 2025

3 мин

очень важно: Справляются ли LLM-модели (большие языковые модели) с длинными диалогами из многих ходов? Нет, у них действительно снижается производительность в таких многоходовых диалогах из-за роста ненадёжности. Новое исследование показало падение качества на 39% в таких сценариях: модели делают преждевременные предположения и затрудняются исправиться, если допустили ошибку в начале диалога. ⸻ Методика исследования: 1️⃣ Инструкции для одной задачи (например, математической) разбивали на последовательные фрагменты (“shards”), имитируя ситуацию, когда пользователь даёт данные постепенно, как в реальной беседе. 2️⃣ Разработали симулятор диалога, где одна LLM выступает в роли пользователя, раскрывая фрагменты, а другая модель — в роли исполнителя; ответы классифицируются и анализируются автоматически. 3️⃣ Протестировали 15 различных LLM-моделей (включая GPT-4.1 и Gemini 2.5 Pro) на 6 типах задач: – Программирование – Работа с базами данных – Выполнение действий – Математика – Генерац

очень важно: Справляются ли LLM-модели (большие языковые модели) с длинными диалогами из многих ходов?

Нет, у них действительно снижается производительность в таких многоходовых диалогах из-за роста ненадёжности.

Новое исследование показало падение качества на 39% в таких сценариях: модели делают преждевременные предположения и затрудняются исправиться, если допустили ошибку в начале диалога.

⸻

Методика исследования:

1️⃣ Инструкции для одной задачи (например, математической) разбивали на последовательные фрагменты (“shards”), имитируя ситуацию, когда пользователь даёт данные постепенно, как в реальной беседе.

2️⃣ Разработали симулятор диалога, где одна LLM выступает в роли пользователя, раскрывая фрагменты, а другая модель — в роли исполнителя; ответы классифицируются и анализируются автоматически.

3️⃣ Протестировали 15 различных LLM-моделей (включая GPT-4.1 и Gemini 2.5 Pro) на 6 типах задач:

– Программирование

– Работа с базами данных

– Выполнение действий

– Математика

– Генерация текстов из данных

– Резюмирование

4️⃣ Для каждой инструкции провели 10 симуляций, оценивая:

• Averaged Performance — средний балл

• Aptitude — 90-й перцентиль (потенциальный максимум)

• Unreliability — разница между 90-м и 10-м перцентилем (насколько модель нестабильна)

5️⃣ Сравнивали три режима:

• SHARDED — диалог из нескольких ходов (по фрагментам)

• FULL — вся инструкция дана сразу

• CONCAT — все фрагменты объединены в один запрос

⸻

Выводы:

• 📉 Среднее падение производительности в диалогах — 39% по сравнению с однорядными задачами.

• 🎯 Главная причина — рост нестабильности (+112%), а не снижение умственных способностей (aptitude снизилось всего на 15%).

• 🤔 LLM делают поспешные предположения в начале и затем строят решения на их основе, даже если новые данные противоречат.

• 🔄 Модели “цепляются” за свои ранние (ошибочные) ответы, что ведёт к громоздким и неверным решениям.

• 🤷‍♀️ Эффект “потери в середине” — средние шаги в разговоре игнорируются, фокус на первом и последнем.

• 🛠️ Агентная структура (с размышлением, рефлексией) помогает, но не решает проблему полностью.

• 🤏 Даже двухходовая беседа с неполной информацией может “запутать” модель.

• 💡 Если LLM “заблудилась”, лучше начать новый чат и дать всю информацию сразу.

⸻

Пояснение на простом языке:

Большие языковые модели умеют отвечать точно, когда им всё дали сразу. Но когда информация поступает частями, как в настоящем разговоре, они начинают:

• спешить с выводами,

• путаться в своих же прошлых ответах,

• игнорировать середину диалога.

Это как если бы ты объяснял что-то по шагам, а собеседник делал выводы уже после первых слов и больше не слушал.

Рекомендации chatGPT, а потом моя оговорка:

Вот 7 чётких рекомендаций, как снизить деградацию LLM в многоходовых диалогах:

⸻

1. Сводите всё в один запрос (если возможно)

— Чем больше информации вы дадите сразу, тем меньше шанс, что модель «съедет» с контекста.

Лучше:

«Вот полная задача: …»

Вместо:

«Сначала вот это. А теперь добавим ещё вот это…»

⸻

2. Если нужно давать по шагам — структурируйте каждую часть

— Например:

«Часть 1 из 3. Вот условия.»

«Часть 2 из 3. Новые данные.»

«Часть 3 из 3. Вопрос.»

Так модель понимает свою позицию в потоке.

⸻

3. Не задавай вопрос, пока не дал все данные

— Модель делает предположения в момент постановки задачи. Если информации не хватает — она заполняет пробелы сама (и часто неверно).

⸻

4. Используй рефлексию

— После ответа скажи:

«Проверь себя. Какие предположения ты сделал? Есть ли противоречия с предыдущими данными?»

Это может остановить “инерцию ошибки”.

⸻

5. Перезапускай разговор, если модель «заблудилась»

— Не пытайся вытянуть её из болота. Лучше начать новый чат, дать все данные вместе.

⸻

6. Упрощай и перепроверяй промежуточные шаги

— Заставь модель явно проговаривать:

«Что мы знаем сейчас?»

«Что мы не знаем?»

Это помогает ей не перепрыгивать к финалу.

⸻

7. Используй внешнюю память (текстовое резюме)

— Каждые 2–3 хода делай резюме текущего состояния и корректируй, если модель что-то исказила.

Бизнес и финансы

1,13 млн интересуются