Найти в Дзене
Nemotron 3 Ultra (550B‑A55B): открытая модель NVIDIA для сложных ИИ-агентов
Компания NVIDIA представила Nemotron 3 Ultra (550B‑A55B) — открытую языковую модель с 550 миллиардами параметров, из которых 55 миллиардов активны одновременно. Модель ориентирована на работу в составе ИИ-агентов и рассчитана на сложные сценарии, где требуется удерживать длинный контекст и взаимодействовать с внешними инструментами. В основе Nemotron 3 Ultra лежит гибридная архитектура Mamba2 + Transformer с соотношением 4:1 в пользу Mamba. Это позволяет эффективно обрабатывать большие объёмы информации и поддерживать сложные многошаговые задачи...
2 дня назад
Ideogram покусал Krea
Команда Krea решила опубликовать исходный код своей новой модели Krea K2. Это событие вызвало заметную реакцию в сообществе — не только из-за самого факта опенсорса, но и из-за того, что недавно Ideogram выпустил обновление, которое многие восприняли как прямой вызов конкурентам. Судя по обсуждениям, между командами Krea и Ideogram возникла своеобразная гонка: обе компании активно развивают генеративные инструменты для работы с изображениями и текстом. Теперь Krea делает ставку на открытость — и это явно не осталось незамеченным...
2 дня назад
LongCat-Video-Avatar 1.5: обновление для создания говорящих аватаров
Вышла новая версия LongCat-Video-Avatar 1.5 — модели от Meituan, которая превращает статичные изображения в видео с говорящими персонажами. Ключевая особенность обновления — стабильная работа с длинными роликами и точная синхронизация губ с аудиодорожкой благодаря интеграции Whisper‑Large. Модель одинаково уверенно справляется с людьми, аниме-персонажами и даже животными. LongCat-Video-Avatar 1.5 поддерживает...
3 дня назад
Компрессия KV-кэша от Huawei: как работает и зачем нужна
Huawei представила инструмент для компрессии KV-кэша в больших языковых моделях. Эта технология ориентирована на ускорение генерации текста и снижение нагрузки на GPU‑память, что особенно актуально при работе с квантованными моделями. В основе архитектуры лежит комбинация вариационного автоэнкодера (VAE) и механизма ранней остановки (early exit). Такой подход позволяет не только уменьшить задержку при генерации, но и оптимизировать использование ресурсов, что важно для обработки запросов в реальном времени...
3 дня назад
Gemma 4 12B: мультимодальная модель Google для локального запуска
Компания Google представила Gemma 4 12B — открытую мультимодальную модель, которую можно запускать прямо на ноутбуках. Она работает не только с текстом, но и с изображениями и аудио, что делает её универсальным инструментом для самых разных задач. Главная особенность Gemma 4 12B — единая архитектура без отдельных мультимодальных энкодеров. Это позволяет экономить память и ускоряет обработку данных: модель справляется с задачами с низкой задержкой, не требуя мощных серверов. Для запуска потребуется...
3 дня назад
Reve 2.0: сегментация, 4K и тесты без сна
Если вы только что провели ночь в попытках обойти ограничения Ideogram, то утро встречает новостью: вышел Reve 2.0. Времени на сон нет, зато есть повод проверить, что изменилось в этом инструменте. Главное нововведение — нативная поддержка 4K. Теперь изображения можно создавать и редактировать в высоком разрешении без потери качества. Для тех, кто работает с деталями, это заметное улучшение. Второй важный апдейт — сегментация объектов на картинке. Это значит, что отдельные элементы изображения можно выделять и редактировать точечно, а не возиться с целым полотном...
3 дня назад
Ideogram 4 теперь поддерживается в ComfyUI с первого дня
В экосистеме ComfyUI появилась поддержка новой версии Ideogram 4 — это заметное событие для тех, кто работает с генерацией изображений и текстовых элементов на них. Теперь пользователи могут использовать возможности Ideogram 4 прямо в ComfyUI без дополнительных настроек или ожидания обновлений. Главное отличие — Day 0 support: поддержка появилась сразу после релиза самой модели. Это значит, что все ключевые функции Ideogram 4 доступны в ComfyUI уже сейчас. Пользователям не нужно...
3 дня назад
Молния! Igeogram 4 опенсорснулся!
Сегодня в опенсорс вышла Ideogram 4 — генератор картинок, который уже по первым тестам обходит конкурентов по скорости и качеству. Это не доработка старых моделей, а полностью новая архитектура с открытыми весами. Для энтузиастов и разработчиков это редкая возможность посмотреть, как устроен современный генератор изображений изнутри. Главная особенность — структурированный JSON-интерфейс промптов, который позволяет явно управлять цветами, текстом и даже аспектами изображения до 6:1. Модель отлично...
3 дня назад
Microsoft представила семь новых моделей MAI: что важно знать
Компания Microsoft анонсировала сразу семь новых моделей под брендом MAI, которые ориентированы на работу с изображениями, голосом и кодом. В этом списке — MAI-Thinking-1 (ризонинг-модель с 35 миллиардами параметров и контекстом 128K), MAI-Code-1-Flash, MAI-Image-2.5 и MAI-Voice-2. Каждая из них отвечает за свою задачу, но наибольшее внимание сейчас приковано к MAI-Image-2.5. MAI-Image-2.5 неожиданно заняла второе место на платформе Arena в категории редактирования изображений, обогнав конкурента по имени Банана...
4 дня назад
NAVA: Baidu представила открытую модель для генерации видео и аудио
Команда ERNIE из Baidu выпустила NAVA — открытую модель, которая умеет создавать синхронизированные аудио и видео по одному текстовому запросу. Это не просто генерация картинки или озвучки: модель формирует полноценные 720p-видео со звуком примерно за минуту, причём поддерживает сразу несколько говорящих персонажей, каждому из которых можно задать индивидуальный голос через WAV-файлы. В отличие от многих аналогов, NAVA не требует отдельного вокодера и этапа пост-выравнивания аудио и видео — всё делается внутри одной системы...
4 дня назад
SANA-Streaming: локальное редактирование видео по промптам от Nvidia в реальном времени
Инструмент SANA-Streaming позволяет редактировать видео на локальном компьютере по текстовым промптам, используя мощности видеокарты Nvidia. По сути, это аналог Stream Diffusion, но с акцентом на работу в реальном времени и без необходимости облачных сервисов. Тестирование проводилось на видеокарте RTX 5090 с 5,56 ГБ видеопамяти. При таких параметрах система способна обрабатывать потоковое видео в разрешении 720p, что делает её подходящей для задач, где важна скорость отклика и автономность. Основная...
4 дня назад
Гибкое регулирование ИИ: взгляд Сбера на преимущества России
На Петербургском международном экономическом форуме Александр Ведяхин, первый зампред правления Сбера, выделил одну из особенностей российского подхода к регулированию искусственного интеллекта. По его словам, именно комфортные и гибкие правила становятся заметным преимуществом страны на фоне других государств. Сейчас в России активно обсуждается будущий закон об ИИ. Ведяхин подчеркнул, что задача — не только установить понятные рамки для отрасли, но и не создавать препятствий для развития технологий...
4 дня назад