Google представила новую модель Gemma 4 12B — мультимодальную систему искусственного интеллекта, рассчитанную на локальный запуск на ноутбуках и других устройствах с ограниченными вычислительными ресурсами. Модель стала промежуточным звеном между компактной E4B и более крупной MoE-архитектурой на 26 млрд параметров. Ключевая особенность Gemma 4 12B заключается в том, что это первая модель среднего размера в линейке, которая изначально поддерживает аудиовходы. Кроме того, разработчики заявляют, что система способна работать без традиционных отдельных энкодеров для обработки изображений и аудио, используя более прямую интеграцию мультимодальных сигналов в основную языковую модель. По словам компании, архитектура модели была радикально упрощена. В случае обработки изображений отдельный vision-энкодер заменён лёгким модулем на основе матричных преобразований и позиционного кодирования, что снижает вычислительные затраты. Аудиообработка реализована ещё проще — сырой сигнал проецируется в пр
Google представила Gemma 4 12B — мультимодальную ИИ-модель с 12 млрд параметров с нативной поддержкой аудио и работы без энкодеров
3 дня назад3 дня назад
14
1 мин