Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

«Gemini 3» на подходе: «маски» на LMArena, точное чтение циферблатов и претензия на музыку

Два «псевдонима» на арене: lithiumflow и orionmist За два дня до ожидаемого анонса Google, сообщество заметило в LMArena два новых профиля моделей, которые массово приписывают будущей линейке Gemini 3: Такой «стелс-дебют» уже стал индустриальным ритуалом: новые LLM перед релизом «обкатываются» на публичных лигах, чтобы собрать неформальный фидбек и создать вирусное ожидание. Судя по разрозненным тестам, «маски» демонстрируют несколько отличий, которые важно вынести за скобки обычных бенчмарков. Первое внятное «понимание часов»: точность до секунд Визуальное чтение аналогового циферблата — давний «простенький, но коварный» тест для мультимоделей: он требует сопоставления формы стрелок, их длины, углов и равных интервалов делений. Если эти наблюдения подтвердятся массовыми тестами, это сигнал о заметном апгрейде визуально‑пространственных представлений и «тонкой моторики» зрения у Gemini 3. SVG‑рендеринг: чище форма, ближе к художественному языку Ещё одна «традиционная дуэль» — генерация

Два «псевдонима» на арене: lithiumflow и orionmist

За два дня до ожидаемого анонса Google, сообщество заметило в LMArena два новых профиля моделей, которые массово приписывают будущей линейке Gemini 3:

  • Gemini 3.0 Pro — под ником lithiumflow
  • Gemini 3.0 Flash — под ником orionmist

Такой «стелс-дебют» уже стал индустриальным ритуалом: новые LLM перед релизом «обкатываются» на публичных лигах, чтобы собрать неформальный фидбек и создать вирусное ожидание. Судя по разрозненным тестам, «маски» демонстрируют несколько отличий, которые важно вынести за скобки обычных бенчмарков.

Первое внятное «понимание часов»: точность до секунд

Визуальное чтение аналогового циферблата — давний «простенький, но коварный» тест для мультимоделей: он требует сопоставления формы стрелок, их длины, углов и равных интервалов делений.

  • lithiumflow (предположительный Gemini 3 Pro) стабильно даёт точное время до секунд — условно 06:02:30 — там, где многие SOTA‑модели путают часовую и минутную стрелки.
  • GPT‑5 Thinking (в отдельных примерах пользователей) ошибался, выдавая 12:30 на том же изображении.
  • Gemini 2.5 Pro также часто «спотыкался» на этом кейсе.

Если эти наблюдения подтвердятся массовыми тестами, это сигнал о заметном апгрейде визуально‑пространственных представлений и «тонкой моторики» зрения у Gemini 3.

SVG‑рендеринг: чище форма, ближе к художественному языку

Ещё одна «традиционная дуэль» — генерация в векторе (SVG). У lithiumflow:

  • композиции выглядят аккуратнее и стилистически цельнее, иногда с намёком на «абстракционизм»;
  • «мемный» сюжет с пеликаном на велосипеде — выполнен конструктивно: механика велосипеда и пропорции проработаны лучше, чем у многих предшественников.

Оговорка: ряд соперничающих моделей, судя по арене, могли целенаправленно «подучиться» на этом меме и выдавать переобученные «идеальные» ответы, особенно если явно не требовать SVG. В таком поле сравнения честная оценка сложнее: где граница между реальным апгрейдом и подгонкой под популярный промпт?

Музыка как способность, а не трюк: ритм, длительность, вариативность

Gemini 3 Pro, по отзывам ранних тестеров, научился не только «продлевать луп», но и держать:

  • устойчивый метр/темп на протяжении длительных отрезков,
  • стилистические имитации,
  • уместные вариации и динамические переходы.

Пока это звучит как «первый приличный композиторский модуль» в линейке Google, но без массовых слепых прослушиваний и метрик перцептивного качества (структура, саунд‑дизайн, микс) делать громкие выводы рано.

«Демо‑утечки»: за минуту — стильная SVG‑анимация, за HTML — псевдо‑OS‑интерфейсы

До появления «масок» в арене, разработчики, якобы допущенные к предпросмотрам, показывали:

  • генерацию цельных UI‑интерфейсов в одной HTML‑заготовке с интерактивной логикой,
  • сборку стилизованных анимаций за ~1 минуту (SVG‑кадры + трансформации).

Часть этих роликов выглядит «слишком красиво, чтобы быть правдой» — как и всегда в предрелизный период. Но если даже половина совпадёт в публичной версии, это будет заметный шаг в «кодогенерации для визуала» и дизайнерских пайплайнах.

«Арена» как ритуал и проблема: как оценивать по‑взрослому

Инфопоток вокруг Gemini 3 повторяет знакомую хореографию индустрии:

  1. слухи и «промкампании» в соцсетях;
  2. появление «масок» на LMArena и охота за матчами;
  3. скриншоты промптов, мем‑кейсы (часы, пеликан, «посмотри и перескажи картинку»), спорные выводы по 1–2 примерам.

Но реальная оценка мультимодели — это:

  • система из слепых A/B‑прослушиваний и просмотров,
  • стабильность на длинном контексте и редких кейсах,
  • метрики управляемости (насколько точно исполняет ограничения) и детерминизма под фиксированным сэмплингом,
  • устойчивость к «подглядыванию» на мем‑промптах.

Пока же — урывки, «везение» в матч‑мейкинге и визуально убедительные, но единичные кейсы.

Контекст большой гонки: Google vs OpenAI

  • После «двойного» хода OpenAI (GPT‑5 и Sora 2) Google ответил Veo 3.1, но оставался должен «основную карту» в LLM. Если lithiumflow/orionmist действительно — Gemini 3 Pro/Flash, то это явная проба перед релизом.
  • Сильные стороны (по утечкам и арене): зрительно‑пространственные задачи, SVG‑графика/анимации, базовая композиция музыки, улучшенная мультимодальность.
  • Ключевая проверка — не «мем‑бенчмарки», а инженерные сценарии: анализ таблиц/чартов, надёжность чтения диаграмм, инструментальная агентность (веб, почта, файлы), долговременный контекст.

Что это значит для практики

  • Дизайн и продакшн: ускорение прототипов UI, сторибордов, SVG‑графики; потенциально — быстрые аниматики.
  • Образование/офис: более точное «понимание таблиц и графиков» и чтение визуальных инструкций — если «умение читать часы» коррелирует с общим апгрейдом визуальной логики.
  • Креатив и музыка: ещё один инструмент для «черновиков по стилю» с возможностью правок и вариаций.

Вывод

Если «маски» lithiumflow/orionmist действительно принадлежат Gemini 3, Google готовит релиз, в котором:

  • закрывается часть старых болевых точек мультимодальности (пространственная точность, визуальное следование инструкциям),
  • появляется конкурентоспособная SVG/анимационная связка,
  • намечается «композиторский» модуль, пригодный не только для демо.

Но окончательные выводы потребуют:

  • публичных спецификаций (режимы, параметры, цены),
  • воспроизводимых тестов на длинной серии задач,
  • проверок управляемости и стабильности вне «мем‑промптов».

Пока же — аккуратный оптимизм: «модель умнеет», а вот методология оценки должна повзрослеть вместе с ней.

Ссылки по теме:

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/