Найти тему

СБЕР ОТКРЫЛ ДОСТУП К СОБСТВЕННОМУ АНАЛОГУ CHATGPT: ВОСПОЛЬЗОВАТЬСЯ МОЖЕТ ЛЮБОЙ


Большую языковую модель обучали в первую очередь на русскоязычном контенте, так что качество ответов выше

Сегодня, 20 июля, представители компании Сбер официально объявили о том, что их нейросетевая модель, лежащая в основе российского сервиса GigaChat, отправилась в открытый доступ. Соответственно, теперь любой желающий может воспользоваться уже обученной нейронной сетью для каких-либо своих задач — в компании уточнили, что модель можно использовать в том числе и для коммерческих целей, так что в будущем различных сервисов на базе ИИ, вероятно, станет гораздо больше. И на самом деле это очень внушительный «подарок» для энтузиастов, потому что компания, фактически, выполнила основную работу и отдала результат в сеть.

Сотрудники Сбера объяснили, что ядром сервиса GigaChat, который способен креативно отвечать на вопросы, предоставлять информацию и многое другое, выступает именно языковая модель. Для того, чтобы она могла выполнять поставленные задачи, её нужно сначала обучить — компания использовала на данном этапе обучение на огромных объёмах различного текстового контента — речь идёт о сотне тысяч всевозможных книг, статей, программного кода и не только. Лишь после этого наступает этап pretrain, в рамках которого компания дообучает свою языковую модель на более точных инструкциях, чтобы система лучше отвечала на поставленные запросы.

И процесс обучения языковой модели занимает примерно 99% от всего времени, которое необходимо на весь цикл подготовки. В Сбере заявили, что на это нужно очень много ресурсов, которыми располагают только крупные IT-компании, и теперь результаты этого труда открыты для всех желающих. Это, безусловно, удивительная новость, потому что на текущий момент среди больших языковых моделей (принято считать большими те модели, которые располагают 1 миллиардом параметров и более) аналогов в мире не существует — все конкуренты вроде LLaMA, Falcon, MPT и OPT обучались на английском языке, тогда как решение Сбера тренировали на русском.

В большинстве сценариев обучение на русском языке происходит на базе определённых данных из интернета и русскоязычного сегмента «Википедии» — столь узкий объём данных существенно (и, естественно, негативно) влияет на понимание моделью языка, так что в конечном итоге качество ответов будет соответствующее. Специалисты Сбера отмечают, что их большая языковая модель ruGPT-3.5 13B (13B — 13 миллиардов параметров) обучалась в первую очередь на русском языке — сначала через нейросеть «прогнали» 300 ГБ данных (книги, энциклопедии, научные статьи, информация из социальных ресурсов и прочих источников), на которых сеть обучалась полтора месяца, после чего был запущен процесс дообучения на 110 ГБ данных (юридические документы, обновлённые тексты «Википедии», датасет The Stack). Так что обрабатывает запросы гораздо качественнее и точнее.

2 минуты