51 подписчик

В России научили ИИ отвечать честно и без прикрас

25 марта25 мар

2 мин

В России предложили способ оценки ИИ-помощников на предмет правдивости ответов Разработчики SberAI, MWS AI и российских университетов представили открытую методику тестирования русскоязычных ИИ-помощников, работающих с поиском и внешними источниками данных, под названием DRAGOn. Речь идет о системах ИИ, встроенных в корпоративную среду. Они обращаются к своим внутренним базам знаний и помогают находить ответы на основе актуальной информации, а не выдают текст «с потолка», как это часто бывает с базовыми моделями. Обычные проверки строятся на фиксированных наборах данных, которые быстро теряют актуальность. Со временем эти данные могут попасть в обучающие выборки моделей, и тогда проверка потеряет смысл. Проблема усугубляется тем, что стандартные тесты не учитывают специфику конкретной компании, а значит, универсальные оценки теряют смысл. В основе системы лежит работа с постоянно обновляемым массивом информации. DRAGOn собирает свежие новостные потоки и формирует на их основе структуру

Оглавление

Почему ИИ лжёт
Как устроен DRAGOn
В чем профит

В России предложили способ оценки ИИ-помощников на предмет правдивости ответов

Разработчики SberAI, MWS AI и российских университетов представили открытую методику тестирования русскоязычных ИИ-помощников, работающих с поиском и внешними источниками данных, под названием DRAGOn.

Речь идет о системах ИИ, встроенных в корпоративную среду. Они обращаются к своим внутренним базам знаний и помогают находить ответы на основе актуальной информации, а не выдают текст «с потолка», как это часто бывает с базовыми моделями.

Почему ИИ лжёт

Обычные проверки строятся на фиксированных наборах данных, которые быстро теряют актуальность. Со временем эти данные могут попасть в обучающие выборки моделей, и тогда проверка потеряет смысл.

Проблема усугубляется тем, что стандартные тесты не учитывают специфику конкретной компании, а значит, универсальные оценки теряют смысл.

Как устроен DRAGOn

В основе системы лежит работа с постоянно обновляемым массивом информации. DRAGOn собирает свежие новостные потоки и формирует на их основе структуру фактов, на базе которой строятся задания. Вместо простых вопросов он предлагает сложные логические задачи. Чтобы ответить на них, ИИ приходится сопоставлять данные из разных источников, а не выдавать одну готовую формулировку.

Проверку выполняет отдельная нейромодель. Она оценивает корректность ответа по смыслу и полноте данных, а не по совпадению слов.

«Конкуренция в сфере ИИ смещается от гонки параметров к эффективности прикладного контура. Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и строгом контроле фактов. Методология легко адаптируется к любым языкам и сценариям – от анализа научных публикаций до судебных документов», – сказал руководитель центра разработки больших языковых моделей MWS AI Валентин Малых.

В чем профит

Бизнес получает инструмент, который можно развернуть в собственной инфраструктуре и протестировать поведение ИИ на собственных реальных данных еще до запуска.

Это дает более точное представление о том, как система справляется с задачами в сфере клиентского обслуживания, аналитики или документооборота, и позволяет сравнивать разные модели по единым критериям без привязки к абстрактным тестам.

Кооперация разработчиков

В проекте приняли участие специалисты Сбербанка, MWS AI и ряда университетов, в том числе ИТМО, МИСиС, НИУ ВШЭ, MBZUAI, IITU и Школы анализа данных «Яндекса».

Параллельно разработчики запустили открытый рейтинг RAG-систем на русском языке. Первые результаты показывают, что наилучшие показатели дают комбинации нескольких моделей с расширенным поиском, хотя даже они пока испытывают трудности при работе со сложными логическими связями в постоянно обновляемом потоке данных.