Найти тему
Всё про банки

«Сбер» выпустила собственный аналог ChatGPT — GigaChat

Оглавление

Сбербанк объявил о выпуске своего собственного мультимодального нейросетевого инструмента под названием GigaChat, который является аналогом ChatGPT. По словам компании, она стала первым технологическим гигантом в России, которая создала свой собственный аналог мультимодальной нейросети. На первом этапе сеть будет доступна только по приглашениям и находится в стадии тестирования.


Множество людей разных профессий и возрастов увлечены примерами нейросетевых генераций и используют
ChatGPT для различных целей, таких как создание контента и обсуждение сознания и нейросетевых технологий. Качество продукта от OpenAI, на основе которого создан ChatGPT, вызывает восторг и желание использовать эту технологию при любом удобном случае, будь то написание статьи, исправление кода или получение советов по общению с девушками.

Однако, чтобы достичь или хотя бы приблизиться к подобному качеству, нужно знать, что играет ключевую роль при обучении нейросетей, такие как данные, архитектура, ёмкость модели и другие факторы. К сожалению, создатели ChatGPT не раскрывают деталей своих экспериментов, поэтому исследователи вынуждены искать свой путь и опираться на результаты друг друга.

Однако, мы готовы поделиться своим опытом создания подобной модели с сообществом, включая технические детали, и предоставить возможность попробовать ее через API. Так что давайте попробуем приручить этого дракона, приветствуя GigaChat!

Для начала нужно напомнить, что языковая модель - это сущность, которая способна усваивать знания из текстов и использоваться машиной для понимания текстовой информации. Мы используем языковые модели каждый день: например, при вводе сообщения на телефоне или при поиске чего-то в интернете мы видим их рекомендации.

-2

Простые модели могут рассчитывать вероятности переходов между всеми возможными символами и предлагать наиболее вероятный вариант.

Самые сложные модели на сегодняшний день имеют трансформерную архитектуру, основанную на классической статье "Attention is all you need". Чтобы классифицировать эти модели, можно обратиться к диаграмме из подробного обзора "Transformer models: an introduction and catalog".

В ядре GigaChat используется набор моделей, объединенных под названием NeONKA (NEural Omnimodal Network with Knowledge-Awareness), названный так в честь произведения братьев Стругацких. Для обучения модели на инструктивных данных была выбрана базовая модель (pretrain), среди которых были русскоязычные и мультиязычные генеративные модели, такие как ruGPT-3, ruT5, mGPT, FRED-T5 и другие. Для первых экспериментов была выбрана модель ruGPT-3 с 13 миллиардами параметров, обученная на корпусе данных объемом 300 Гб, который содержит книги, новости на русском и английском языках, научные статьи и другие типы документов. Обучение этой модели заняло около полутора месяцев на 512 GPU V100.

-3

Большинство моделей были обучены на корпусе, который считался довольно чистым, но в настоящее время этот корпус кажется маленьким. Для увеличения объема корпуса мы работаем над новой версией размером более 2 ТБ, которая будет использоваться для обучения моделей.

Модель ruGPT-3.5 13B была дообучена на расширенном датасете, включающем юридические документы, The Stack, Википедию и новости. Для обучения использовались инструктивные данные, сформированные автоматически и затем отредактированные редакторами и экспертами. Модели оценивались по SBS тестам и другим метрикам, чтобы выбрать лучшую модель для релиза. В результате экспериментов была выбрана удачная модель ruGPT-3.5 13B, которая превзошла модель ChatGPT в сравнительном тестировании.

Возможности Модели:
1) Написание рекламных текстов

2)Воображаемые диалоги

3)Шаблоны документов

4)Творчество

5)Составление списков, рекомендаций и т.д.

6)Мультимодальность

-4

Пожалуй, это основные моменты, которые я бы вам хотел рассказать сегодня. В скором времени ИИ будет использоваться повсеместно, развивайтесь в этой сфере, чтобы быть на гребне волны, счастливо!