Компания Google (Гугл) официально представила новое поколение открытых моделей искусственного интеллекта — Gemma 4 (Джемма 4). Семейство включает четыре модели различного масштаба, построенные на базе технологий Gemini 3 (Джемини 3). Ключевыми нововведениями стали поддержка более 140 языков, обработка видео и аудио, генерация кода без подключения к интернету и переход на лицензию Apache 2.0 (Апачи 2.0), которая позволяет свободно использовать модели в коммерческих проектах. По заявлению Google (Гугл), модель Gemma 4 (Джемма 4) с 31 миллиардом параметров заняла третье место в рейтинге Arena AI (Арена ЭйАй), обойдя модели, превосходящие её по размеру в 20 раз.
Четыре модели для разных задач и устройств
Семейство Gemma 4 (Джемма 4) состоит из четырёх моделей, каждая из которых оптимизирована для определённого класса устройств и сценариев использования. Такой подход позволяет разработчикам выбрать модель, наилучшим образом соответствующую имеющимся аппаратным ресурсам и требованиям к качеству.
Компактные модели: E2B (И2Б) и E4B (И4Б)
Две компактные модели — E2B (И2Б — Effective 2 Billion / Эффектив 2 Биллион — «Эффективная 2 миллиарда») и E4B (И4Б — Effective 4 Billion / Эффектив 4 Биллион — «Эффективная 4 миллиарда») — предназначены для работы на устройствах с ограниченными вычислительными ресурсами. Сюда входят смартфоны, встраиваемые системы, одноплатные компьютеры Raspberry Pi (Распберри Пай) и модули Jetson Nano (Джетсон Нано) от NVIDIA (Нвидиа).
Данные модели были оптимизированы совместно с компаниями Qualcomm (Куалком) и MediaTek (МедиаТек) — ведущими производителями мобильных процессоров. Оптимизация затронула потребление оперативной памяти и расход энергии аккумулятора. По сравнению с предыдущим поколением компактные модели Gemma 4 (Джемма 4) потребляют меньше памяти и батареи, что делает их более пригодными для постоянной работы на мобильных устройствах.
Google (Гугл) заявила, что в компактных моделях удалось достичь «практически нулевой задержки» при генерации ответов. Это означает, что пользователь получает отклик от модели практически мгновенно, без ощутимого ожидания.
Крупные модели: 26B MoE (26Б МоЕ) и 31B Dense (31Б Денс)
Для более мощных систем предназначены две модели большего масштаба.
Модель 26B MoE (26Б МоЕ — 26 Billion Mixture of Experts / 26 Биллион Миксчер оф Экспертс — «26 миллиардов, смесь экспертов») использует архитектуру Mixture of Experts (МоЕ — «Смесь экспертов»). Особенность данной архитектуры заключается в том, что при обработке каждого запроса активируется лишь часть параметров модели. В случае 26B MoE (26Б МоЕ) из 26 миллиардов параметров при каждом обращении используются лишь 3,8 миллиарда. Это обеспечивает высокую скорость генерации токенов (единиц текста) при сохранении качества, характерного для значительно более крупных моделей.
Модель 31B Dense (31Б Денс — 31 Billion Dense / 31 Биллион Денс — «31 миллиард, плотная») использует все свои 31 миллиард параметров при каждом запросе. Данный подход обеспечивает максимальную точность и качество генерации, но требует больше вычислительных ресурсов. Модель ориентирована на задачи, где приоритетом является качество результата, а не скорость.
Обе крупные модели спроектированы таким образом, чтобы работать на одном графическом процессоре NVIDIA H100 (Нвидиа Эйч100) с 80 ГБ памяти в формате bfloat16 (бифлоут16). При использовании квантизации — метода снижения точности вычислений — модели способны функционировать и на потребительских видеокартах.
Мультимодальность: текст, изображения, видео и звук
Gemma 4 (Джемма 4) является мультимодальной моделью — она способна обрабатывать не только текст, но и другие виды данных. Это существенно расширяет сферу применения по сравнению с чисто текстовыми моделями.
Обработка изображений и видео
Все модели семейства Gemma 4 (Джемма 4) поддерживают работу с изображениями и видео. Практическое применение данной возможности включает:
- Оптическое распознавание символов (OCR / ОСиАр — Optical Character Recognition / Оптикал Кэрэктер Рекогнишн) — извлечение текста из фотографий и сканов документов
- Анализ графиков и диаграмм — интерпретация визуальной информации, представленной в графической форме
- Описание содержимого изображений и видеофрагментов
- Классификация визуального контента
Поддержка аудио
Компактные модели E2B (И2Б) и E4B (И4Б) дополнительно оснащены поддержкой аудиовхода и распознавания речи. Это позволяет использовать их в голосовых ассистентах, системах транскрибации и других приложениях, работающих со звуком, непосредственно на устройстве пользователя без необходимости отправки данных на сервер.
Контекстное окно
Модели различаются размером контекстного окна — максимального объёма информации, которую модель может одновременно обработать.
Компактные модели (E2B и E4B) поддерживают контекстное окно размером 128 тысяч токенов. Крупные модели (26B MoE и 31B Dense) поддерживают контекстное окно размером 256 тысяч токенов.
Для справки: 256 тысяч токенов приблизительно соответствуют 500–600 страницам печатного текста. Такой объём контекстного окна позволяет модели анализировать объёмные документы, длинные переписки и сложные кодовые базы целиком, не теряя информацию из начала входных данных.
Поддержка более 140 языков
Все модели семейства Gemma 4 (Джемма 4) обучены на данных, охватывающих более 140 языков. Это делает их одними из наиболее «многоязычных» открытых моделей искусственного интеллекта на рынке.
Широкая языковая поддержка важна для нескольких категорий пользователей. Разработчики, создающие продукты для международных рынков, получают возможность использовать единую модель вместо набора специализированных моделей для каждого языка. Исследователи, работающие с многоязычными данными, могут применять Gemma 4 (Джемма 4) для анализа текстов на различных языках в рамках одного проекта.
Для российских разработчиков поддержка русского языка в составе более 140 языков означает возможность использования модели для задач обработки естественного языка (NLP / ЭнЭлПи — Natural Language Processing / Нэчурал Лэнгвидж Просессинг) на русском языке: генерации текстов, ответов на вопросы, перевода, суммаризации и других задач.
Google (Гугл) заявила, что Gemma 4 (Джемма 4) совершила значительный прыжок в показателе «интеллект на один параметр». Это означает, что при одинаковом количестве параметров модели нового поколения демонстрируют значительно более высокое качество ответов по сравнению с предыдущими версиями.
Генерация кода без подключения к интернету
Одной из наиболее практически значимых особенностей Gemma 4 (Джемма 4) является способность генерировать программный код без подключения к интернету. Модель работает полностью локально на устройстве пользователя, не отправляя данные на внешние серверы.
Значение для разработчиков
Локальная генерация кода имеет несколько существенных преимуществ. Конфиденциальность обеспечивается тем, что исходный код проекта и запросы разработчика не покидают его устройство. Это критически важно при работе с проприетарным кодом, коммерческими проектами и данными, составляющими коммерческую тайну.
Автономность позволяет использовать модель в условиях отсутствия интернет-соединения — в самолёте, в удалённых регионах или при работе в изолированных сетях с ограниченным доступом к внешним ресурсам.
Скорость реакции при локальной работе не зависит от пропускной способности интернет-канала и нагрузки на облачные серверы. Разработчик получает ответ с минимальной задержкой.
Качество генерации кода
Google (Гугл) утверждает, что крупные варианты Gemma 4 (Джемма 4) при наличии достаточных аппаратных ресурсов способны генерировать код качества, сопоставимого с облачными решениями. Это делает модель полноценной альтернативой облачным сервисам для написания кода, таким как GitHub Copilot (ГитХаб Копайлот) и другие.
Производительность: третье место в мировом рейтинге
По данным Google (Гугл), модели Gemma 4 (Джемма 4) продемонстрировали впечатляющие результаты в независимых оценках качества.
Результаты в Arena AI (Арена ЭйАй)
Модель 31B Dense (31Б Денс) заняла третье место в рейтинге Arena AI (Арена ЭйАй) — платформе для сравнительной оценки языковых моделей, где пользователи оценивают ответы различных моделей в слепом тестировании. Модель 26B MoE (26Б МоЕ) заняла шестое место в том же рейтинге.
Примечательно, что обе модели превзошли по качеству ответов модели, содержащие в 20 раз больше параметров. Это свидетельствует об эффективности архитектурных решений и методов обучения, применённых при создании Gemma 4 (Джемма 4).
Области улучшения
По сравнению с предыдущим поколением Gemma 4 (Джемма 4) демонстрирует значительные улучшения в нескольких ключевых областях:
- Логическое рассуждение (reasoning / ризонинг) — способность выстраивать цепочки умозаключений
- Математические вычисления — решение математических задач различной сложности
- Следование инструкциям (instruction following / инстракшн фоллоуинг) — точное выполнение сложных многоступенчатых указаний пользователя
Google (Гугл) заявляет, что в перечисленных областях Gemma 4 (Джемма 4) приближается к уровню Gemini 3 (Джемини 3) — закрытой коммерческой модели компании, доступной только через облачные сервисы.
Переход на лицензию Apache 2.0 (Апачи 2.0): что это означает
Одним из наиболее значимых изменений, сопровождающих выпуск Gemma 4 (Джемма 4), стал переход на лицензию Apache 2.0 (Апачи 2.0). Данное решение имеет принципиальное значение для всего сообщества разработчиков.
Что такое Apache 2.0 (Апачи 2.0)
Apache 2.0 (Апачи 2.0) — одна из наиболее свободных лицензий с открытым исходным кодом. Она разрешает любому использовать, модифицировать и распространять программное обеспечение — в том числе в коммерческих проектах — без ограничений.
Отличие от предыдущих версий Gemma
Предыдущие версии моделей Gemma (Джемма) распространялись под собственной лицензией Google (Гугл), которая содержала ряд ограничений на коммерческое использование. Эти ограничения вызывали критику со стороны разработчиков и компаний, желавших интегрировать модели в свои коммерческие продукты.
Что даёт переход на Apache 2.0 (Апачи 2.0)
С переходом на Apache 2.0 (Апачи 2.0) разработчики получают следующие возможности:
- Свободная модификация моделей — дообучение, тонкая настройка и адаптация под конкретные задачи без юридических ограничений
- Коммерческое использование — интеграция моделей в платные продукты и сервисы
- Свободное распространение — размещение модифицированных версий моделей в любых репозиториях и на любых платформах
- Развёртывание на собственной инфраструктуре — запуск моделей на локальных серверах или в частном облаке
Переход на Apache 2.0 (Апачи 2.0) ставит Gemma 4 (Джемма 4) в один ряд с такими открытыми моделями, как Llama (Лама) от Meta (Мета) и Mistral (Мистраль) от одноимённой Французской компании, в части свободы использования. Для разработчиков и компаний это устраняет последний существенный барьер на пути к внедрению моделей Google (Гугл) в коммерческие проекты.
Возможности для агентных систем
Gemma 4 (Джемма 4) оснащена рядом функций, предназначенных для создания так называемых агентных систем (agentic systems / эйджентик системс) — программ, способных автономно выполнять последовательности действий для достижения заданной цели.
Встроенный вызов функций
Модель поддерживает встроенный вызов функций (function calling / фанкшн коллинг), что позволяет ей взаимодействовать с внешними программами и сервисами. Например, модель может самостоятельно определить, что для ответа на запрос пользователя необходимо обратиться к базе данных, вызвать соответствующую функцию, получить результат и сформировать ответ.
Структурированный вывод в формате JSON (ДжейСОН)
Gemma 4 (Джемма 4) способна генерировать ответы в формате JSON (ДжейСОН — JavaScript Object Notation / ДжаваСкрипт Обджект Нотейшн) — стандартном формате обмена данными. Это упрощает интеграцию модели с программными системами, которые ожидают структурированные данные, а не произвольный текст.
Интеграция с API (ЭйПиАй)
Поддержка интеграции с API (ЭйПиАй — Application Programming Interface / Эпликейшн Программинг Интерфейс — интерфейс программирования приложений) позволяет модели взаимодействовать с веб-сервисами, базами данных и другими программными компонентами. Это делает Gemma 4 (Джемма 4) пригодной для создания автономных ассистентов, способных выполнять сложные многоэтапные задачи.
Где скачать и как начать работу
Модели Gemma 4 (Джемма 4) доступны для загрузки на нескольких платформах.
Платформы для загрузки
Hugging Face (Хаггинг Фейс) — крупнейшая платформа для размещения и обмена моделями искусственного интеллекта. Модели Gemma 4 (Джемма 4) доступны для загрузки в различных форматах и конфигурациях.
Kaggle (Кэгл) — платформа для соревнований в области машинного обучения и обмена данными, также принадлежащая Google (Гугл).
Ollama (Оллама) — инструмент для запуска языковых моделей на локальном компьютере. Поддерживает загрузку и запуск моделей Gemma 4 (Джемма 4) с минимальной настройкой.
Платформы для тестирования
Google AI Studio (Гугл ЭйАй Студио) — веб-платформа для экспериментирования с моделями Google (Гугл). Позволяет протестировать возможности Gemma 4 (Джемма 4) без установки на локальное оборудование.
AI Edge Gallery (ЭйАй Эдж Галери) — платформа для тестирования моделей, оптимизированных для работы на мобильных и встраиваемых устройствах.
Облачное использование
Для тех, кто предпочитает использовать облачную инфраструктуру, модели Gemma 4 (Джемма 4) доступны через Google Cloud (Гугл Клауд) на платной основе. Облачное размещение обеспечивает доступ к мощным вычислительным ресурсам без необходимости приобретения дорогостоящего оборудования.
Конкуренция на рынке открытых моделей ИИ
Выход Gemma 4 (Джемма 4) обостряет конкуренцию на рынке открытых моделей искусственного интеллекта. Основными конкурентами являются несколько семейств моделей от крупнейших технологических компаний.
Llama (Лама) от компании Meta (Мета) — серия открытых моделей, включающая Llama 3.1 (Лама 3.1) с параметрами до 405 миллиардов. Модели Llama (Лама) пользуются широкой популярностью в исследовательском и коммерческом сообществе.
Mistral (Мистраль) от Французской компании Mistral AI (Мистраль ЭйАй) — семейство эффективных моделей, отличающихся высоким качеством при относительно небольшом размере.
Qwen (Квен) от Китайской компании Alibaba (Алибаба) — серия моделей с поддержкой Китайского и множества других языков.
DeepSeek (ДипСик) — Китайская компания, модели которой привлекли значительное внимание благодаря высокому качеству при сравнительно небольших вычислительных затратах.
Gemma 4 (Джемма 4) выделяется на фоне конкурентов сочетанием мультимодальности, широкой языковой поддержки и перехода на полностью открытую лицензию Apache 2.0 (Апачи 2.0).
Значение для российских разработчиков
Для Российского сообщества разработчиков выход Gemma 4 (Джемма 4) представляет практический интерес по нескольким причинам.
Поддержка Русского языка в составе более 140 языков обеспечивает возможность создания Русскоязычных приложений на базе модели. Лицензия Apache 2.0 (Апачи 2.0) устраняет юридические барьеры для коммерческого использования. Возможность локального запуска на потребительском оборудовании позволяет работать с моделью без зависимости от облачных сервисов, доступ к которым из России может быть ограничен.
Компактные модели E2B (И2Б) и E4B (И4Б) открывают возможности для создания мобильных приложений с встроенным искусственным интеллектом, работающих полностью автономно на устройстве пользователя.
Заключение
Google (Гугл) с выпуском Gemma 4 (Джемма 4) существенно укрепила свои позиции на рынке открытых моделей искусственного интеллекта. Четыре модели различного масштаба — от компактных E2B (И2Б) и E4B (И4Б) для смартфонов до мощных 26B MoE (26Б МоЕ) и 31B Dense (31Б Денс) для серверов — покрывают широкий спектр задач и аппаратных конфигураций.
Мультимодальность, поддержка более 140 языков, генерация кода без интернета и переход на лицензию Apache 2.0 (Апачи 2.0) делают Gemma 4 (Джемма 4) одним из наиболее конкурентоспособных предложений в сегменте открытых моделей ИИ. Третье место в рейтинге Arena AI (Арена ЭйАй) при размере всего 31 миллиард параметров подтверждает высокую эффективность архитектурных решений.
Для разработчиков и компаний по всему миру, включая Россию, Gemma 4 (Джемма 4) открывает возможности для создания продуктов с искусственным интеллектом без зависимости от облачных сервисов и без юридических ограничений на коммерческое использование.
#искусственныйинтеллект #GoogleGemma4 #нейросети #открытыемоделиИИ