6394 подписчика

В России разработали «экзамен» для ИИ на работу с длинными текстами

1 декабря 20251 дек 2025

1 мин

Российские специалисты из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ создали первый всесторонний тест для оценки того, как большие языковые модели справляются с длинными русскоязычными текстами. Об этом сообщили в Центре научной коммуникации МФТИ. Инициаторы проекта отмечают, что многие современные ИИ‑системы ограничены объёмом так называемого контекстного окна и при работе с длинными текстами «забывают» ранее прочитанные части. При этом архитектуры новых моделей уже позволяют обрабатывать массивы, сопоставимые по размеру с крупными статьями и книгами, но стандартизированного инструмента для оценки этих возможностей не было. Новый тест представляет собой набор из 18 заданий, рассчитанных на тексты длиной от 4 до 128 тыс. структурных элементов. Модели должны искать и извлекать конкретные фразы, отвечать на содержательные вопросы, объединять разрозненные сведения из разных частей документа и решать сформулированные в тексте задачи. Команда уже опробовала инструмент

Инициаторы проекта отмечают, что многие современные ИИ‑системы ограничены объёмом так называемого контекстного окна и при работе с длинными текстами «забывают» ранее прочитанные части. При этом архитектуры новых моделей уже позволяют обрабатывать массивы, сопоставимые по размеру с крупными статьями и книгами, но стандартизированного инструмента для оценки этих возможностей не было.

Новый тест представляет собой набор из 18 заданий, рассчитанных на тексты длиной от 4 до 128 тыс. структурных элементов. Модели должны искать и извлекать конкретные фразы, отвечать на содержательные вопросы, объединять разрозненные сведения из разных частей документа и решать сформулированные в тексте задачи.

Команда уже опробовала инструмент на 17 языковых моделях. Результаты показали, что по мере роста длины текста качество работы всех систем заметно падает. Лучшую эффективность продемонстрировала модель GPT-4o, а среди открытых для настройки моделей, ориентированных на российское сообщество, выделилась GLM4-9B-Chat.

По словам авторов, единый открытый тестовый полигон должен помочь разработчикам объективно сравнивать модели и целенаправленно улучшать их способность работать с длинными текстами, что важно для применения ИИ в науке, медиа и аналитике, сообщает ТАСС.

Обратите внимание: Три подсказки от матушки-природы: Как я предсказываю зиму по лесу и саду

Моя Самара

184,1 тыс интересуются