46,9 тыс подписчиков

Ученые ВШЭ разработали ИИ для анализа русскоязычных научных текстов

СегодняСегодня

1 мин

Об этом сообщили в пресс-службе Высшей школы экономики. По словам разработчиков, большинство популярных генеративных ИИ-систем обучаются в основном на англоязычных данных. Из-за этого русскоязычная научная информация представлена в таких моделях значительно хуже. Чтобы решить проблему, специалисты Института статистических исследований и экономики знаний ВШЭ дообучили открытую языковую модель на специальном корпусе iFORA-QA. Его вручную подготовили более 150 экспертов института на основе научных отчетов, аналитики и материалов в сфере технологий и инноваций. После адаптации искусственный интеллект стал точнее отвечать на профессиональные вопросы, связанные с научно-технической тематикой. Кроме того, разработчики добились роста скорости генерации текста в 2,7 раза. При этом потребление памяти сократилось на 73%, что позволяет запускать систему даже на менее мощном оборудовании. Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут

Исследователи НИУ ВШЭ начали разработку собственной нейросети для анализа научно-технической информации на русском языке. Система уже прошла государственную регистрацию.

Об этом сообщили в пресс-службе Высшей школы экономики.

По словам разработчиков, большинство популярных генеративных ИИ-систем обучаются в основном на англоязычных данных. Из-за этого русскоязычная научная информация представлена в таких моделях значительно хуже.

Чтобы решить проблему, специалисты Института статистических исследований и экономики знаний ВШЭ дообучили открытую языковую модель на специальном корпусе iFORA-QA. Его вручную подготовили более 150 экспертов института на основе научных отчетов, аналитики и материалов в сфере технологий и инноваций.

После адаптации искусственный интеллект стал точнее отвечать на профессиональные вопросы, связанные с научно-технической тематикой.

Кроме того, разработчики добились роста скорости генерации текста в 2,7 раза. При этом потребление памяти сократилось на 73%, что позволяет запускать систему даже на менее мощном оборудовании.

Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры, — пояснила главный аналитик проекта Анастасия Малашина.

В дальнейшем исследователи планируют создать на базе модели дополнительные инструменты. Один из них станет интеллектуальным поисковиком с ответами только на основе научных источников. Это должно снизить риск так называемых «галлюцинаций» искусственного интеллекта.

Также ученые работают над системой, которая сможет находить скрытые связи в научных данных и задавать пользователю уточняющие вопросы при нехватке информации.

В перспективе все инструменты хотят объединить в единую мультиагентную систему для автоматизированного анализа научно-технической информации.

Дениза Ошхунова

Журналист

Бизнес и финансы

1,13 млн интересуются