Gemma 4 ускоряется втрое, Veai 5.10 объединяет скиллы, а русские LLM проверят на уязвимости
Google AI представила технологию Multi-Token Prediction для семейства Gemma 4. Ключевое нововведение: лёгкая drafter-модель предсказывает несколько токенов вперёд, а тяжёлый 31B-проверочник считывает их параллельно за один проход. Раньше GPU простаивал в ожидании загрузки данных из памяти — теперь проверка идёт непрерывным потоком. Результат — ускорение до 3 раз без потери качества по сравнению с авторегрессивным декодированием. Модели доступны на Hugging Face под лицензией Apache 2.0. Gemma 4 26B...