Сбер открыл доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. Её дообученная версия лежит в основе сервиса GigaChat. Также банк выложил новую версию модели mGPT 13B — самую большую из семейства многоязычных моделей Сбера, способную генерировать тексты на 61 языке. Обе модели доступны на HuggingFace, и их могут использовать все разработчики (модели опубликованы под открытой лицензией MIT*).
ruGPT-3.5
Внутри GigaChat находитсяцелый ансамбль моделей — NeONKA (NEural Omnimodal Network withKnowledge-Awareness). Для его создания нужно было выбрать базовую языковуюмодель, которую потом можно было обучать на инструктивных данных. RussianGenerative Pretrained Transformer версии 3.5 с 13 млрд параметров (ruGPT-3.513B) — новая версия нейросети ruGPT-3 13B.
Это современная модельгенерации текста для русского языка на основе доработанной исследователямиСбера архитектуры GPT-3 от OpenAI. Модель ruGPT-3.5 13B содержит 13 миллиардовпараметров и умеет продолжать тексты на русском и английском языках, а также наязыках программирования. Длина контекста модели составляет 2048 токенов. Онаобучена на текстовом корпусе размером около 1 Тб, в который, помимо ужеиспользованной для обучения ruGPT-3 большой коллекции текстовых данных из открытыхисточников, вошли, например, часть открытого сета с кодом The Stack отколлаборации исследователей BigCode и корпусыновостных текстов. Финальный чекпоинт модели — этобазовый претрейн для дальнейших экспериментов.
Модель также доступна нароссийской платформе ML Space в хабе предобученных моделей и датасетов DataHub.В обучении модели участвовали команды SberDevices и Sber AI при поддержкеИнститута искусственного интеллекта AIRI.
mGPT
Также в открытом доступеопубликована многоязычная модель mGPT 13B под открытой лицензией MIT. Версия mGPT 13B содержит13 млрд параметров и способна продолжать тексты на 61 языке, включая языкистран СНГ и малых народов России. Длина контекста модели составляет 512токенов. Она была обучена на 600 Гб текстов на разных языках, собранных изочищенных и подготовленных датасетов multilingual C4 и других открытыхисточников.
Модель может использоватьсядля генерации текста, решения различных задач в области обработки естественногоязыка на одном из поддерживаемых языков путём дообучения или в составеансамблей моделей.
Модель также доступна нароссийской платформеML Space в хабе предобученных моделей и датасетов DataHub.
Андрей Белевцев, старший вице-президент, CTO, руководитель блока «Технологии» Сбербанка: «Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами».
*Лицензия MIT (англ. MIT License) — лицензия открытого исвободного программного обеспечения, разработанная Массачусетскимтехнологическим институтом.