Два «псевдонима» на арене: lithiumflow и orionmist
За два дня до ожидаемого анонса Google, сообщество заметило в LMArena два новых профиля моделей, которые массово приписывают будущей линейке Gemini 3:
- Gemini 3.0 Pro — под ником lithiumflow
- Gemini 3.0 Flash — под ником orionmist
Такой «стелс-дебют» уже стал индустриальным ритуалом: новые LLM перед релизом «обкатываются» на публичных лигах, чтобы собрать неформальный фидбек и создать вирусное ожидание. Судя по разрозненным тестам, «маски» демонстрируют несколько отличий, которые важно вынести за скобки обычных бенчмарков.
Первое внятное «понимание часов»: точность до секунд
Визуальное чтение аналогового циферблата — давний «простенький, но коварный» тест для мультимоделей: он требует сопоставления формы стрелок, их длины, углов и равных интервалов делений.
- lithiumflow (предположительный Gemini 3 Pro) стабильно даёт точное время до секунд — условно 06:02:30 — там, где многие SOTA‑модели путают часовую и минутную стрелки.
- GPT‑5 Thinking (в отдельных примерах пользователей) ошибался, выдавая 12:30 на том же изображении.
- Gemini 2.5 Pro также часто «спотыкался» на этом кейсе.
Если эти наблюдения подтвердятся массовыми тестами, это сигнал о заметном апгрейде визуально‑пространственных представлений и «тонкой моторики» зрения у Gemini 3.
SVG‑рендеринг: чище форма, ближе к художественному языку
Ещё одна «традиционная дуэль» — генерация в векторе (SVG). У lithiumflow:
- композиции выглядят аккуратнее и стилистически цельнее, иногда с намёком на «абстракционизм»;
- «мемный» сюжет с пеликаном на велосипеде — выполнен конструктивно: механика велосипеда и пропорции проработаны лучше, чем у многих предшественников.
Оговорка: ряд соперничающих моделей, судя по арене, могли целенаправленно «подучиться» на этом меме и выдавать переобученные «идеальные» ответы, особенно если явно не требовать SVG. В таком поле сравнения честная оценка сложнее: где граница между реальным апгрейдом и подгонкой под популярный промпт?
Музыка как способность, а не трюк: ритм, длительность, вариативность
Gemini 3 Pro, по отзывам ранних тестеров, научился не только «продлевать луп», но и держать:
- устойчивый метр/темп на протяжении длительных отрезков,
- стилистические имитации,
- уместные вариации и динамические переходы.
Пока это звучит как «первый приличный композиторский модуль» в линейке Google, но без массовых слепых прослушиваний и метрик перцептивного качества (структура, саунд‑дизайн, микс) делать громкие выводы рано.
«Демо‑утечки»: за минуту — стильная SVG‑анимация, за HTML — псевдо‑OS‑интерфейсы
До появления «масок» в арене, разработчики, якобы допущенные к предпросмотрам, показывали:
- генерацию цельных UI‑интерфейсов в одной HTML‑заготовке с интерактивной логикой,
- сборку стилизованных анимаций за ~1 минуту (SVG‑кадры + трансформации).
Часть этих роликов выглядит «слишком красиво, чтобы быть правдой» — как и всегда в предрелизный период. Но если даже половина совпадёт в публичной версии, это будет заметный шаг в «кодогенерации для визуала» и дизайнерских пайплайнах.
«Арена» как ритуал и проблема: как оценивать по‑взрослому
Инфопоток вокруг Gemini 3 повторяет знакомую хореографию индустрии:
- слухи и «промкампании» в соцсетях;
- появление «масок» на LMArena и охота за матчами;
- скриншоты промптов, мем‑кейсы (часы, пеликан, «посмотри и перескажи картинку»), спорные выводы по 1–2 примерам.
Но реальная оценка мультимодели — это:
- система из слепых A/B‑прослушиваний и просмотров,
- стабильность на длинном контексте и редких кейсах,
- метрики управляемости (насколько точно исполняет ограничения) и детерминизма под фиксированным сэмплингом,
- устойчивость к «подглядыванию» на мем‑промптах.
Пока же — урывки, «везение» в матч‑мейкинге и визуально убедительные, но единичные кейсы.
Контекст большой гонки: Google vs OpenAI
- После «двойного» хода OpenAI (GPT‑5 и Sora 2) Google ответил Veo 3.1, но оставался должен «основную карту» в LLM. Если lithiumflow/orionmist действительно — Gemini 3 Pro/Flash, то это явная проба перед релизом.
- Сильные стороны (по утечкам и арене): зрительно‑пространственные задачи, SVG‑графика/анимации, базовая композиция музыки, улучшенная мультимодальность.
- Ключевая проверка — не «мем‑бенчмарки», а инженерные сценарии: анализ таблиц/чартов, надёжность чтения диаграмм, инструментальная агентность (веб, почта, файлы), долговременный контекст.
Что это значит для практики
- Дизайн и продакшн: ускорение прототипов UI, сторибордов, SVG‑графики; потенциально — быстрые аниматики.
- Образование/офис: более точное «понимание таблиц и графиков» и чтение визуальных инструкций — если «умение читать часы» коррелирует с общим апгрейдом визуальной логики.
- Креатив и музыка: ещё один инструмент для «черновиков по стилю» с возможностью правок и вариаций.
Вывод
Если «маски» lithiumflow/orionmist действительно принадлежат Gemini 3, Google готовит релиз, в котором:
- закрывается часть старых болевых точек мультимодальности (пространственная точность, визуальное следование инструкциям),
- появляется конкурентоспособная SVG/анимационная связка,
- намечается «композиторский» модуль, пригодный не только для демо.
Но окончательные выводы потребуют:
- публичных спецификаций (режимы, параметры, цены),
- воспроизводимых тестов на длинной серии задач,
- проверок управляемости и стабильности вне «мем‑промптов».
Пока же — аккуратный оптимизм: «модель умнеет», а вот методология оценки должна повзрослеть вместе с ней.
Ссылки по теме:
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru