Найти в Дзене
FABULAai

Gemma 2 2B: новый релиз от Google, компактная, но крайне способная нейросеть⁠⁠

Компания Google анонсировала выпуск новой модели искусственного интеллекта Gemma 2 2B, которая, несмотря на сравнительно небольшие размеры, способна конкурировать с крупными игроками рынка. Новая языковая модель, включающая 2,6 миллиарда параметров, демонстрирует производительность на уровне или даже превосходящую более масштабные аналоги, такие как GPT-3.5 от OpenAI и Mixtral 8x7B от Mistral AI.

Gemma 2 2B достигает впечатляющих результатов: 1130 баллов в независимом тестировании LMSYS, что немного выше, чем у GPT-3.5-Turbo-0613 (1117) и Mixtral-8x7B (1114), модели с в 10 раз большим числом параметров. В тесте MMLU (Massive Multitask Language Understanding) модель набрала 56,1 балла, а в MBPP (Mostly Basic Python Programming) — 36,6, что значительно превышает показатели её предшественников.

-2

Важной особенностью Gemma 2 2B является её оптимизация для работы на самых разнообразных устройствах — от мобильных и периферийных систем до облачных платформ, таких как Google Kubernetes Engine (GKE) и Vertex AI. Модель также оптимизирована с использованием библиотеки NVIDIA TensorRT-LLM, что делает её быстрой и эффективной на разнообразном оборудовании, включая ПК и edge-устройства.

Новые дополнения к семейству Gemma 2

Вместе с Gemma 2 2B, Google представил и другие важные дополнения к линейке Gemma 2, нацеленные на повышение безопасности и прозрачности использования ИИ:

  • ShieldGemma — это набор моделей для классификации контента, предназначенный для фильтрации потенциально вредной информации на этапе ввода и вывода данных. Эти классификаторы могут эффективно обнаруживать и предотвращать распространение ненависти, домогательств, сексуально откровенного и опасного контента. ShieldGemma поддерживает различные размеры моделей, включая версии на 2 млрд, 9 млрд. и 27 миллиардов параметров, что позволяет выбрать наиболее подходящий вариант для конкретных задач.
Эти открытые классификаторы дополняют текущий набор инструментов безопасности в Responsible AI Toolkit. В него входит методика создания классификаторов, настроенных под конкретные требования с минимальным объемом данных, а также готовые классификаторы
Эти открытые классификаторы дополняют текущий набор инструментов безопасности в Responsible AI Toolkit. В него входит методика создания классификаторов, настроенных под конкретные требования с минимальным объемом данных, а также готовые классификаторы

Результаты оценки основаны на показателях Optimal F1 (слева) и AU-PRC (справа), где более высокие значения указывают на лучшую производительность. Для расчета вероятностей: 𝛼=0 и T=1. Наборы данных для тестирования включают запросы и ответы S
Результаты оценки основаны на показателях Optimal F1 (слева) и AU-PRC (справа), где более высокие значения указывают на лучшую производительность. Для расчета вероятностей: 𝛼=0 и T=1. Наборы данных для тестирования включают запросы и ответы S

  • Gemma Scope — это инструмент для интерпретации моделей, который предоставляет исследователям и разработчикам беспрецедентный доступ к внутренним процессам принятия решений моделей Gemma 2. Используя разреженные автоэнкодеры, этот инструмент позволяет заглянуть внутрь модели и понять, как она обрабатывает информацию и делает прогнозы, что способствует созданию более прозрачных и надежных систем ИИ.

Эти дополнения подчеркивают приверженность Google ответственному использованию ИИ и предоставлению инструментов для создания безопасных и инклюзивных приложений.

Доступность и открытость

Gemma 2 2B и её дополнительные инструменты доступны для исследователей и разработчиков на платформах Google AI Studio, Hugging Face и Kaggle. Модель распространяется с лицензией, подходящей для коммерческого использования, что делает её доступной как для исследовательских, так и для коммерческих приложений. Благодаря своей компактности, Gemma 2 2B может работать даже на бесплатном уровне GPU T4 в Google Colab, что упрощает эксперименты и разработку.

Этот выпуск отражает растущий тренд в индустрии ИИ на создание более эффективных моделей, которые могут работать на аппаратном обеспечении потребительского уровня. В условиях растущих опасений по поводу воздействия на окружающую среду крупных языковых моделей и спорам о их доступности, компании всё больше концентрируются на разработке меньших по размеру, но не менее мощных систем.

__________________________________________________________________________________________

Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал.

А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт.