16,5 тыс подписчиков

Метод ускоренного дообучения нейросетей представлен исследователями из ВШЭ и AIRI

4 июня 20254 июн 2025

2 мин

Исследователи из Высшей школы экономики (ВШЭ) и Института искусственного интеллекта AIRI разработали инновационный метод донастройки нейросетей, который ускоряет процесс адаптации моделей под новые задачи. Технология, получившая название GSOFT, основана на группировке и оптимальном перемешивании данных, что позволяет снизить вычислительные затраты без потери качества. Традиционные подходы к дообучению нейросетей, такие как LoRA или BOFT, требуют значительных ресурсов, особенно при работе с крупными моделями. Российские ученые предложили альтернативу — Group-and-Shuffle (GS) матрицы, которые разбивают данные на группы, обрабатывают их отдельно, а затем комбинируют оптимальным образом. Мы придумали, как формировать ортогональные матрицы, используя всего две матрицы специального вида, а не пять-шесть, как в прежних подходах. Это экономит ресурсы и время обучения.

— Николай Юдин, cтажер-исследователь Научно-учебной лаборатории матричных и тензорных методов в машинном обучении НИУ ВШЭ М

Новый подход «Группируй и перемешивай» сокращает время и затраты на адаптацию ИИ-моделей

Традиционные подходы к дообучению нейросетей, такие как LoRA или BOFT, требуют значительных ресурсов, особенно при работе с крупными моделями. Российские ученые предложили альтернативу — Group-and-Shuffle (GS) матрицы, которые разбивают данные на группы, обрабатывают их отдельно, а затем комбинируют оптимальным образом.

Мы придумали, как формировать ортогональные матрицы, используя всего две матрицы специального вида, а не пять-шесть, как в прежних подходах. Это экономит ресурсы и время обучения.
— Николай Юдин, cтажер-исследователь Научно-учебной лаборатории матричных и тензорных методов в машинном обучении НИУ ВШЭ

Метод GSOFT был протестирован на различных задачах, включая дообучение языковой модели RoBERTa и генерацию изображений. В сравнении с аналогами он показал более высокую точность при меньших затратах памяти и времени. Дополнительный вариант Double GSOFT позволяет настраивать параметры с двух сторон, что повышает гибкость модели.

Мы проверили метод в различных сценариях — от языковых и генеративных моделей до устойчивых сверточных сетей. В каждом из них он работал надежно и при меньших затратах ресурсов. Это подтверждает, что мы можем использовать метод для разных целей.
— Айбек Аланов, старший научный сотрудник Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ, руководитель группы «Контролируемый генеративный ИИ» Лаборатории FusionBrain Института AIRI

Исследователи также провели проверку своего метода на свёрточных нейронных сетях, которые обычно применяются для анализа изображений и видео, например, в системах распознавания лиц. Они разработали GS-матрицы, которые можно использовать даже в ситуациях, когда модель должна быть устойчива к помехам и искажениям.

Универсальность подхода позволяет применять его в различных сферах — от улучшения языковых моделей до создания устойчивых систем распознавания образов. Это открывает новые перспективы для разработчиков, которым требуется оперативно адаптировать ИИ-решения под меняющиеся задачи.

Читайте ещё материалы по теме:

Конструктор для взрослых: ПАК-AI меняет подход к цифровизации бизнеса в России

Долой офисную рутину: Smart Engines представила ИИ-агенты для автоматизации создания шаблонов в документах

«Алиса, подпишись на www1.ru»: «Яндекс» дополнит своего голосового помощника ИИ-агентом

Гаджеты и электроника

5,73 млн интересуются