Токены на завтрак

🚀 Nvidia Rubin уводит AI-дата-центры от воды за счёт горячего жидкостного охлаждения

Nvidia предлагает радикальный способ сэкономить миллионы литров воды: не охлаждать сильнее, а позволить системе работать на более горячей воде. Референсный дизайн Rubin — полностью жидкостное охлаждение для AI-дата-центра. Суть в том, что замкнутый контур гоняет жидкость внутри без контакта с атмосферой, а потому испарение почти исключено. В терминах теплообмена уменьшается разница температур между оборудованием и средой, и теплообмен работает эффективнее. По заявлениям Nvidia, цель — практически нулевое потребление воды для охлаждения...

48 минут назад

🔬 MaxKB — open-source конструктор корпоративных AI-агентов с RAG и визуальным workflow, который реально внедряют

MaxKB выглядит как типичный open-source конструктор AI-агентов, но его реальная аудитория — атомные станции, металлургия и китайские госорганы. Суть проекта: корпоративный RAG (поиск по внутренним документам) + agentic workflow с визуальным конструктором. Внутри находят 30+ типов узлов — от чата и поиска по базе знаний до циклов, форм, работы с изображениями и даже видео. Платформа поддерживает мультимодальность: текст, картинки, аудио и видео, а также провайдеры моделей через единый интерфейс (включая DeepSeek, Qwen и публичные API вроде OpenAI/Claude). Это особенно заметно по кейсам внедрения:...

2 часа назад

🚀 Prime Intellect выпустила prime-rl 0.6.0 для асинхронного RL-обучения MoE-моделей на 131k токенов за шаги <5 минут

Обучение триллионно-параметровой MoE-модели на последовательностях до 131 000 токенов можно развернуть так, чтобы один шаг обучения занимал меньше 5 минут на кластере из 28×GPU NVIDIA H200 — prime-rl 0.6.0 вышел в open-source. Суть подхода — полностью асинхронный RL: инференс-движок и тренер работают параллельно, поэтому GPU меньше простаивает на длинных агентных задачах (например, программировании). Отдельно заявлены оптимизации инференса: FP8 (8-битные числа с плавающей точкой) и Wide Expert Parallelism, где эксперты распределяются по большому числу GPU...

3 часа назад

🛠 GGUF-сборки Gemma 4 на 12B для кодинга: можно быстрее тестировать локально и встраивать в пайплайны

Похоже, на Hugging Face появился GGUF-вариант Gemma 4 на 12B для сценариев с упором на код. Это формат, который обычно ускоряет локальный инференс и упрощает запуск в окружениях без сложной конвертации весов. В репозитории есть минимум две линии: coder-fable5-composer2.5 и более агентский вариант agentic-fable5-composer2.5. Для второго в названии фигурируют множители качества/температуры (похоже на профилирование под стиль генерации), но точные бенчмарки и метрики не указаны. Что это даёт разработчику: проще попробовать модель в прототипах, где важны предсказуемость...

7 часов назад

🛠 Sakana Fugu оркестрирует несколько frontier-моделей для кода и рассуждений — координатор сам выбирает роли

Устали гадать, какую из десятка frontier-моделей выбрать для сложной задачи в коде, аналитике или исследовании? Sakana Fugu работает как модель-оркестратор поверх пула «подменяемых» frontier-моделей: в рамках одной сессии она распределяет роли Thinker (план и анализ), Worker (исполнение) и Verifier (проверка) между разными LLM. В основе — небольшой координатор примерно 0.6B параметров (не гигантский трансформер), обученный эволюционной стратегией CMA-ES. По заявлению авторов, эволюционное обучение оказалось эффективнее RL и ряда альтернатив при ограниченном бюджете...

9 часов назад

🤖 zai-org выложила GLM-5.2 и варианты для разных форматов весов: GGUF и FP8

GLM-5.2 — это новая версия большой языковой модели от zai-org на HuggingFace, и в релизе сразу есть несколько форматов весов для разных сценариев развёртывания. Отдельно отмечаются два варианта: GLM-5.2-GGUF и GLM-5.2-FP8. Первый обычно упрощает запуск модели локально и в CPU-сценариях через совместимые рантаймы, второй — нацелен на снижение расходов на инференс за счёт FP8-квантизации, когда на вашей стороне есть подходящий софт и железо. Ключевой практический вопрос: модель в каком именно “sweet spot” по качеству/скорости окажется у вас. Без конкретных бенчмарков и цифр по скоростям (только...

10 часов назад

⚡️xAI добавила /goal в Grok Build — автономно доводит многошаговые задачи разработки до результата с верификацией

Устали вручную разбивать крупные задачи вроде рефакторинга или миграции на сотню мелких шагов и проверять каждый из них? xAI представила команду /goal в Grok Build: вы задаёте одну глобальную цель, а агент сам планирует, выполняет и на каждом этапе сверяет результат с ожидаемым. Есть и чек-лист прогресса, чтобы видеть, что уже сделано и что осталось. Ключевая фишка — встроенная верификация, а не «галлюцинация успешного завершения». Судя по описанию, система способна работать часами: дробит задачу на десятки и сотни шагов, поэтому это позиционируется как инструмент для реальной инженерии...

14 часов назад

🧠 datalab-to/lift

🧠 datalab-to/lift Модель для извлечения JSON из PDF и картинок по любой заданной схеме. Фишка не в очередном OCR, а в схеме на входе: модель возвращает валидный типизированный JSON, а не свободный текст. В бенче на 11 тыс. полей она держит 90.2% по полям и заметно быстрее API-альтернатив с верификацией. 💻 microsoft/FastContext-1.0-4B-RL 4B-сабагент для кодинга, который отдельно исследует репозиторий и возвращает чистый контекст. Он делает параллельные READ/GLOB/GREP вызовы и отдаёт короткие ссылки на файлы и строки, чтобы главный агент не тратил токены на мусорный просмотр кода. В связке с Mini-SWE-Agent это режет токены основного агента до 60% и даёт до +5...

14 часов назад

Открытые модели за 3 дня

Три практичных релиза и один свежий формат под Mac.

14 часов назад

🛠 Z-Image-Engineer превращает идеи в кинематографичные промпты локально и обучен на парах «идея→промпт

» Устали вручную дописывать «динамику» в промпте — объективы, освещение, композицию — чтобы генерация выглядела как кадр из фильма? Z-Image-Engineer (семейство 4B моделей на Qwen3) обучен именно на «языке картинок»: он уточняет оптику (например, 85mm vs 24mm), схему света и художественные стили, а затем выдаёт развернутый промпт на ~200–250 слов. По методике SMART Training (V4) автор сообщил падение валидационной потери на 55% (с 2.80 до 1.27) на 55k примерах. Это спорит с ожиданием, что качественные...

14 часов назад

📝 ContextRL учит LLM выбирать контекст под ответ — открытые модели делают это почти наугад

Ваш ИИ-агент блестяще решает задачу, но не может объяснить, на каком именно фрагменте кода или детали картинки он основывался — и это проявляется как «контекстная неосознанность». Авторы показали это на простом тесте: модели просят выбрать один из двух почти одинаковых контекстов, где только один подтверждает конкретный ответ. Открытые варианты вроде Qwen3 (VL) 8B и Qwen3.5 9B набирают лишь 52–58%, почти как случайность, хотя на стандартных бенчмарках они выглядят прилично. Вместо «наказываем за неверный ответ» ContextRL добавляет вспомогательную цель в обучении с подкреплением: модель учится выбирать правильный контекст, а не просто угадывать результат...

15 часов назад

📝 Каталог awesome-japanese-nlp-resources стал плагином для Claude Code — поиск по 1200+ ресурсам вместо ручных сравнений

Японский NLP часто превращается в лотерею: сотни токенизаторов, датасетов и библиотек разрознены, и выбор занимает дни ручного гугла и сравнения. awesome-japanese-nlp-resources — это курируемый каталог (1200+ ресурсов), который теперь работает как плагин для Claude Code с навыками search, similar-resources, find-new-resources, research-trends и research-issues. Внутри: 889 репозиториев на GitHub и 313 на Hugging Face (177 моделей и 136 датасетов), контент в CC0-1.0. Для понимания масштаба: можно быстро сузить выбор токенизатора для японского RAG-пайплайна (например, Sudachi...

16 часов назад