Кандидат физико-математических наук, сотрудник лаборатории анализа информационных ресурсов НИВЦ МГУ Михаил Тихомиров занимается автоматическими методами адаптации мультиязычных ресурсов и моделей на конкретный домен. Победитель конкурса грантовой поддержки молодых ученых фонда «Интеллект» рассказал о своем исследовании.
– Михаил, объясните, пожалуйста, что такое доменная адаптация.
– Говоря о доменной адаптации в общем случае, имеется в виду адаптация моделей, ресурсов и/или методов, работающих в более общей предметной области на более узкую. Это может быть адаптация моделей, обученных на Википедии/новостях и интернете, на предметную область биологии или IT. Другим примером может выступать адаптация мультиязычных моделей на конкретный язык. Результатом адаптации являются новые модели, которые лучше и более эффективно решают задачи на целевом домене.
– Насколько универсален метод доменной адаптации?
– Многие современные модели и ресурсы обучаются и создаются либо на английском языке, либо в мультиязычной постановке. При этом качество работы при переносе моделей на целевой язык, например русский, существенно уступает по сравнению с английским. Так, например, последние языковые модели, аналоги GPT, такие как LLaMA и Mistral, показывают возможности, которые сложно было представить еще полгода назад – с учетом размеров этих моделей, – но в случае использования их на русском языке оказывается, что модели допускают большое количество ошибок и артефактов. Помимо этого, из-за особенностей работы подобных моделей – токенизации, вычислительная производительность на русском языке уступает использованию данных моделей на английском языке.
Одним из решений подобных проблем может быть обучение языковых моделей на русском языке с нуля, чем и занимаются последнее время такие компании, как Сбер и Яндекс. Но у этого решения есть ряд недостатков. Во-первых, даже уже существующие модели для русского языка все еще уступают (на русскоязычных задачах!) моделям аналогичного размера, которые исходно обучались на английском языке с небольшим количеством русскоязычных данных. Во-вторых, обучение подобных моделей с нуля на данный момент занимает миллионы долларов. В-третьих, лучшие модели, которые все же будут получены со временем внутри Сбера и Яндекса, скорее всего будут закрыты и не выпущены в open source.
По этим причинам мы исследуем способы адаптации существующих языковых моделей на русский язык. Подобные методы адаптации позволят повысить доступность открытых моделей, которые эффективно работают на русском языке. Помимо этого, они могут быть применены для адаптации на конкретные предметные области, так как по своей сути, другой домен, это другой язык с точки зрения языковых моделей. Глобально, этим мы не только хотим создать более эффективные “русские GPT”, но и методы получения таких моделей для различных областей науки, образования и промышленности.
– Каких результатов уже удалось добиться?
– На данный момент, нам – над этой частью исследований мы работаем совместно с другим победителем фонда «Интеллект», Даниилом Чернышевым – удалось получить первые адаптированные версии модели LLaMA 7B на русском языке. В результате адаптации мы не только смогли поднять качество на ряде задач обработки естественного языка, но и повысить скорость работы на русскоязычных данных на 20-30%. Подготовка статьи на эту тему сейчас находится в процессе.
Помимо больших языковых моделей, которые стали так популярны в последнее время, существует множество других моделей, как, например, ресурсы в виде графов знаний. Граф знаний состоит из вершин – понятия и ребер между ними – отношения. В качестве основы во многих графах знаний выступает «каркас»из таксономии. Таксономия – направленный граф, который организуют понятия (также называемые концептами, синсетами) через отношение частичного порядка гипероним-гипоним.
● Зловред – гипероним для вируса,
● Кошка – гипоним для кошачьих,
● Москва – гипоним для столицы.
Гипероним – вышестоящее понятие к гипониму.
– Где этот метод может применяться, какие прикладные вопросы может решать?
– Подобные ресурсы в виде графов знаний позволяют решать ряд задач обработки естественного языка, но их недостатком является то, что наиболее эффективные графы знаний строятся вручную под целевую предметную область. Поэтому в рамках исследовательской деятельности, поддерживаемой фондом, я изучаю методы пополнения графов знаний новой терминологией. Разработка подобных методов может позволить, имея существующий граф знаний из общей предметной области, адаптировать его на целевой домен, путем добавления в него новых понятий и отношений. В дальнейшем граф знаний может использоваться для решения различных задач обработки естественного языка, и, в частности, для оценки знаний языковых моделей в этом домене.
На данный момент завершилась часть работ, в которых исследовалась возможность использовать большие языковые модели, в частности такие как LLaMA, для предсказания вышестоящих понятий для слов без дообучения (zero-shot). Было обнаружено, что языковые модели могут эффективно применяться для этой задачи без дополнительного дообучения, но качество существенно зависит от способа использования языковой модели. Мы проверили более 70 разных языковых шаблонов, таких как «word1 is a type of word2», оценивая вероятность подобных последовательностей с точки зрения языковых моделей и выяснили, что для разных по размеру и архитектуре моделей хорошо работают схожие группы шаблонов, а качество при этом существенно зависит от их выбора. Также был предложен новый способ создания комбинированных шаблонов с использованием «ко-гипонимов»(понятий, у которых общий гипероним). Для этого опять же с помощью языковой модели предсказываются понятия-синонимы и ко-гипонимы, которыми дополняются шаблоны. Возвращаясь к предыдущему примеру: «cat and dog are types of animals». Таким образом, дополняя контекст, мы упрощаем языковым моделям задачу предсказания вышестоящих понятий.
– В чем заключается ваше исследование?
– В центре моих текущих интересов и исследований находятся способы адаптации существующих моделей на целевой домен. Это необходимая альтернатива созданию моделей с нуля, так как создание с нуля слишком затратно с точки зрения как людских ресурсов, так и вычислительных. Разные типы моделей требуют различные подходы к адаптации, но в последнее время именно языковые модели являются либо объектом исследований, либо же эффективным инструментом. Поэтому необходимым является наличие языковых моделей для целевых областей, а они могут быть получены путем адаптации более общих или мультиязычных моделей. Также важным является развитие способов определения того, насколько языковая модель адаптирована на предметную область и содержит соответствующие «знания». Для этих целей могут использоваться графы знаний, путем формирования на их основе соответствующих запросов к языковым моделям.
«Домен» и «предметная область» тексте используются как синонимичные понятия.