Найти в Дзене
Video Arena вышла в веб
🌐 LMArena запустила Video Arena на сайте. Раньше это был эксперимент в Discord, теперь полноценный веб-инструмент для оценки видеомоделей в реальных сценариях. Пользователю это даёт простой и честный формат сравнения. Вводишь текст или картинку с подсказкой, получаешь два видео от анонимных моделей и голосуешь. Голос влияет на позиции моделей в рейтинге. На старте доступен Battle Mode и 15 топовых видеомоделей, включая Veo 3, Sora 2, Seedance v1...
2 дня назад
🧙‍♂️ Qwen-Image-2512 Trainer v2 вышел на fal
LoRA-обучение для Qwen-Image-2512 ускорили: теперь тренировка занимает примерно вдвое меньше времени при том же качестве результата ⚡️ В примере модель обучали 1000 шагов на 6 изображениях и уложились...
3 дня назад
GLM-4.7-Flash теперь можно запускать локально
🔥 Unsloth выпустили гайд и выложили GGUF-сборки GLM-4.7-Flash под llama.cpp. По их описанию: для запуска целятся в ~24 ГБ RAM/VRAM/unified memory (32 ГБ для full precision). Заявлен контекст до 200K (макс...
4 дня назад
StepFun выкатили Step3-VL-10B: открытая мультимодалка на 10B, которая по бенчам лезет в драку с моделями в 10–20× крупнее (GLM-4.6V
, Qwen3-VL и даже рядом с Gemini 2.5 Pro/Seed). Что заявляют по цифрам (SeRe / PaCoRe): ✅ MMMU: 78.11 → 80.11 ✅ MathVista: 83.97 → 85.50 ✅ MathVision: 70.81 → 75.95 ✅ MMBench (EN): 92.05 → 92.38 ✅ OCRBench: 86.75 → 89.00 ✅ AIME 2025: 87.66 → 94.43 Главная фишка тут в режиме параллельного рассуждения: модель не “думает” одним единственным ходом, а гоняет несколько вариантов рассуждения параллельно, вытаскивает из них подтверждения и уже потом собирает финальный ответ...
4 дня назад
Open Responses — похоже, индустрия наконец-то устала изобретать несовместимые велосипеды
OpenAI анонсировала Open Responses — открытый спецификатор для унифицированного API поверх Responses API. Идея простая: один общий формат запросов и ответов для работы с LLM у разных провайдеров, без бесконечных адаптеров и костылей. Что это даёт: • единая схема для мультипровайдерных LLM • нормальная поддержка стриминга, tool calls и мультимодальности • удобная сборка agent-workflow без привязки к вендору • расширяемость без фрагментации спецификации Кто уже в экосистеме: OpenRouter, Vercel, Hugging Face, LM Studio, Ollama, OpenAI, vLLM. То есть не «потом когда-нибудь», а уже сейчас. Зачем это вообще нужно: LLM-API давно функционально похожи, но каждый кодирует одно и то же по-своему...
1 неделю назад
Обновление Gemini CLI v0.24.0 за неделю к 12 января
📊 Dashboard в Google Cloud Monitoring Для Gemini CLI появился готовый дашборд в Google Cloud Monitoring. Он показывает метрики использования и производительности без ручной настройки. Блог: https://cloud.google.com/blog/topics/developers-practitioners/instant-insights-gemini-clis-new-pre-configured-monitoring-dashboards/ 📱 Расширение Choicely для Gemini CLI Появилось расширение Choicely, которое позволяет собирать, деплоить и масштабировать нативные iOS и Android приложения прямо из терминала...
1 неделю назад
Roo Code 3.40.0–3.40.1 — обновление
⚙️ Что изменилось: 🔍 Поиск по настройкам Добавлен встроенный поиск в настройках Roo Code. Теперь можно искать параметры по ключевым словам и сразу переходить к нужному пункту без ручного пролистывания разделов. Результаты отображаются компактнее и читаются быстрее. ⏹️ Улучшения кнопки остановки Кнопка stop стала стандартной и более заметной во время стриминга и редактирования сообщений. Она остаётся доступной в большем числе сценариев и заменила старый громоздкий cancel-интерфейс, делая прерывание длинных ответов более предсказуемым. 🔧 Совместимость tool-calling Улучшена работа с разными провайдерами, особенно с Gemini и OpenAI-совместимыми бэкендами...
1 неделю назад
MedGemma 1.5 и MedASR — обновление открытых медицинских моделей Google
Google Research выпустила обновление коллекции MedGemma в рамках программы Health AI Developer Foundations (HAI-DEF). Что выпущено: • MedGemma 1.5 4B — обновлённая мультимодальная модель • MedASR — модель автоматического распознавания медицинской речи • Обновления MedSigLIP (image encoder) • MedGemma Impact Challenge на Kaggle MedGemma 1.5 4B: • Поддержка высокоразмерных медицинских данных: – CT (3D тома) – MRI – Whole-slide гистопатология • Поддержка: – продольных серий CXR – анатомической локализации...
1 неделю назад
Google выкатил Veo 3.1 — апдейт, который реально что-то меняет
🎬 Речь про Veo 3.1 Ingredients to Video — генерацию видео на основе референс-картинок. Обновление не для галочки, а под реальное использование. Что нового: 📱 Нативное вертикальное видео (9:16) Теперь можно сразу генерировать вертикальные клипы без кропа. Под Shorts, Reels и мобилки — как задумано, а не через костыли. 🎞 Апскейл до 1080p и 4K Добавили апскейлинг до 1080p и 4K. Подходит уже не только для соцсетей, но и для более «взрослых» продакшн-сценариев. 🧠 Лучшая консистентность по референсам Персонажи, объекты и окружение держатся стабильнее между сценами. Меньше «это уже не тот же человек» и «почему стена поменяла текстуру»...
1 неделю назад
AgentCPM-Explore — редкий случай, когда «маленький» реально дерётся со «взрослыми
» OpenBMB выложили в open-source AgentCPM-Explore — агентную модель всего на 4B параметров, которая на длинных агентных бенчмарках уверенно обгоняет 8B-модели и вплотную подбирается к 30B+, а местами и к закрытым решениям. Что важно: • 4B параметра, но SOTA-уровень для своего класса • Проходит GAIA, HLE, BrowserComp и другие long-horizon агентные бенчмарки • Поддержка 100+ шагов автономного взаимодействия • Мульти-источниковая проверка информации и динамическая стратегия поиска • Реально ориентирована...
1 неделю назад
Devstral 2 сейчас бесплатна в Mistral Vibe CLI
Mistral официально подтвердили: Devstral 2 models are free to use при работе через mistral-vibe CLI. Достаточно установить CLI и подключить API-ключ — модель доступна без оплаты в рамках текущего промо-периода. Установка: uv tool install mistral-vibe Devstral 2 — это флагманская кодинговая модель Mistral для vibe-coding, анализа и правки больших кодовых баз...
1 неделю назад