очень важно: Справляются ли LLM-модели (большие языковые модели) с длинными диалогами из многих ходов? Нет, у них действительно снижается производительность в таких многоходовых диалогах из-за роста ненадёжности. Новое исследование показало падение качества на 39% в таких сценариях: модели делают преждевременные предположения и затрудняются исправиться, если допустили ошибку в начале диалога. ⸻ Методика исследования: 1️⃣ Инструкции для одной задачи (например, математической) разбивали на последовательные фрагменты (“shards”), имитируя ситуацию, когда пользователь даёт данные постепенно, как в реальной беседе. 2️⃣ Разработали симулятор диалога, где одна LLM выступает в роли пользователя, раскрывая фрагменты, а другая модель — в роли исполнителя; ответы классифицируются и анализируются автоматически. 3️⃣ Протестировали 15 различных LLM-моделей (включая GPT-4.1 и Gemini 2.5 Pro) на 6 типах задач: – Программирование – Работа с базами данных – Выполнение действий – Математика – Генерац
очень важно: Справляются ли LLM-модели (большие языковые модели) с длинными диалогами из многих ходов
17 мая 202517 мая 2025
3 мин