4491 подписчик

Российские учёные создали тест для ИИ на понимание длинных текстов

1 декабря 20251 дек 2025

1 мин

Исследователи из России разработали первый комплексный инструмент для оценки того, как большие языковые модели обрабатывают длинные тексты на русском языке. Разработка представлена на конференции EMNLP 2025 в Сучжоу, сообщили в Центре научной коммуникации МФТИ. По словам исследователя МФТИ Айдара Булатова, до сих пор у российских команд не было единого «секундомера» для проверки качества работы ИИ с большими объёмами текста. Каждый разработчик использовал собственные методики, что затрудняло сравнение моделей. Новый тест призван стать открытой площадкой, на которой любые команды могут в единых условиях оценивать производительность своих систем. Авторы отмечают, что одной из уязвимостей современных языковых моделей остаётся работа с длинными документами: при превышении размера контекстного окна алгоритмы теряют часть ранее прочитанной информации и опираются только на последние абзацы. Хотя архитектуры моделей уже модифицируют так, чтобы обрабатывать тексты, сопоставимые по объёму с книг

По словам исследователя МФТИ Айдара Булатова, до сих пор у российских команд не было единого «секундомера» для проверки качества работы ИИ с большими объёмами текста. Каждый разработчик использовал собственные методики, что затрудняло сравнение моделей. Новый тест призван стать открытой площадкой, на которой любые команды могут в единых условиях оценивать производительность своих систем.

Авторы отмечают, что одной из уязвимостей современных языковых моделей остаётся работа с длинными документами: при превышении размера контекстного окна алгоритмы теряют часть ранее прочитанной информации и опираются только на последние абзацы. Хотя архитектуры моделей уже модифицируют так, чтобы обрабатывать тексты, сопоставимые по объёму с книгой, существующие тесты не позволяют полноценно оценить это умение.

Созданный инструмент представляет собой «экзамен» из 18 заданий разной сложности для текстов объёмом от 4 до 128 тыс. структурных элементов. В рамках заданий модели должны находить в тексте точные фразы, отвечать на вопросы по содержанию, связывать факты, разбросанные по разным частям документа, и решать задачи, описанные в тексте.

На основе этого подхода исследователи сравнили 17 популярных языковых моделей. Выяснилось, что даже у самых продвинутых систем качество ответов снижается по мере увеличения длины текста. Лидером стала модель GPT-4o, а среди моделей с открытыми параметрами, доступных российскому сообществу, лучший результат показала GLM4-9B-Chat. Авторы рассчитывают, что новый тест ускорит развитие ИИ, способных лучше понимать длинные тексты на русском языке, сообщает ТАСС.