11 подписчиков

Последние модели MosaicML превосходят GPT-3 всего по 30B параметрам

24 июня 202324 июн 2023

3 мин

Поставщик LLM с открытым исходным кодом MosaicML объявил о выпуске своих самых продвинутых на сегодняшний день моделей - MPT-30B Base, Instruct и Chat.

Эти современные модели были обучены на платформе MosaicML с использованием ускорителей последнего поколения H100 от NVIDIA и утверждают, что обеспечивают превосходное качество по сравнению с оригинальной моделью GPT-3.

С MPT-30B предприятия могут использовать возможности искусственного интеллекта, сохраняя конфиденциальность данных и безопасность.

С момента их запуска в мае 2023 года модели MPT-7B приобрели значительную популярность, их загрузили более 3,3 миллионов раз. Недавно выпущенные модели MPT-30B обеспечивают еще более высокое качество и открывают новые возможности для различных применений.

MPT-модели MosaicML оптимизированы для эффективного обучения и вывода, что позволяет разработчикам с легкостью создавать и развертывать модели корпоративного уровня.

Одним из заметных достижений MPT-30B является его способность превосходить качество GPT-3 при использовании всего 30 миллиардов параметров по сравнению со 175 миллиардами параметров GPT-3. Это делает MPT-30B более доступным для запуска на локальном оборудовании и значительно дешевле в развертывании для вывода.

Стоимость обучения пользовательских моделей на основе MPT-30B также значительно ниже, чем стоимость обучения оригинального GPT-3, что делает его привлекательным вариантом для предприятий.

Кроме того, MPT-30B был обучен работе с более длинными последовательностями, включающими до 8000 токенов, что позволяет ему обрабатывать корпоративные приложения с большим объемом данных. Его производительность поддерживается использованием графических процессоров NVIDIA H100, которые обеспечивают повышенную пропускную способность и более быстрое время обучения.

Несколько компаний уже внедрили MPT-модели MosaicML для своих приложений искусственного интеллекта.

Replit, веб-среда IDE, успешно построила модель генерации кода с использованием собственных данных и платформы обучения MosaicML, что привело к повышению качества кода, скорости и экономической эффективности.

Scatter Lab, стартап с искусственным интеллектом, специализирующийся на разработке чат-ботов, обучил свою собственную MPT-модель созданию многоязычной генеративной модели ИИ, способной понимать английский и корейский языки, что улучшает взаимодействие с их пользовательской базой в чате.

Navan, глобальная компания по разработке программного обеспечения для управления путешествиями и расходами, использует MPT foundation для разработки пользовательских LLM для таких приложений, как виртуальные турагенты и агенты бизнес-аналитики в режиме разговора.

Илан Твиг, соучредитель и технический директор Navan, сказал:

“В Navan мы используем генеративный искусственный интеллект во всех наших продуктах и услугах, обеспечивая такие возможности, как наш виртуальный турагент и наш агент бизнес-аналитики в режиме разговора.

Базовые модели MosaicML предлагают самые современные языковые возможности, будучи при этом чрезвычайно эффективными для точной настройки и обслуживания вывода в масштабе ”.

Разработчики могут получить доступ к MPT-30B через HuggingFace Hub как к модели с открытым исходным кодом. Они обладают гибкостью для точной настройки модели на своих данных и развертывания ее для вывода в своей инфраструктуре.

В качестве альтернативы разработчики могут использовать управляемую конечную точку MosaicML MPT-30B-Instruct, которая обеспечивает беспроблемный вывод модели за небольшую часть затрат по сравнению с аналогичными конечными точками. По цене 0,005 доллара за 1000 токенов MPT-30B-Instruct предоставляет разработчикам экономически эффективное решение.

Выпуск MosaicML моделей MPT-30B знаменует значительный прогресс в области моделей больших языков, позволяя предприятиям использовать возможности генеративного искусственного интеллекта при оптимизации затрат и сохранении контроля над своими данными.