ИИтог | Дзен

Steam Machine запущена, облачная игровая консоль от Valve

Steam Machine представляет собой облачный сервис для игр, который дает доступ к полной библиотеке Steam в облаке. Консоль позиционируется как способ играть в полноценные ПК-игры на более доступных устройствах без необходимости покупки дорогого оборудования. Инициатива Valve подчеркивает амбиции компании в области облачных вычислений и проникновения на рынок потребительских электроники. Запуск отмечен активностью пользователей (1364 голоса на Hacker News, 1230 комментариев), что указывает на интерес...

10 минут назад

TAPO: учимся на собственных ошибках, новый метод дистилляции для LLM через микро-размышления

Траектория-Расширенная Оптимизация Политики (TAPO) улучшает рассуждение больших языковых моделей за счёт создания явных исправляющих траекторий. Вместо того чтобы просто удалять ошибочные цепочки мысли, метод сохраняет их вместе с естественно-языковой диагностикой и исправлением. Это позволяет модели учиться на ошибках более эффективно, чем традиционные подходы самодистилляции (когда модель фильтрует плохие примеры или дистиллирует с большей моделью). Работа опубликована на Hugging Face Papers, авторы: Zhilin Huang и др...

27 минут назад

The Register про OpenAI и безопасность: когда аннонсы совпадают с политическими неудачами конкурентов

The Register освещает четыре аннонса OpenAI: GPT-5.5-Cyber (85.6% на CyberGym), расширённую партнёрскую программу, обновление Codex Security и программу "Patch the Planet" для 30+ проектов ПО. Издание отмечает конкретные метрики улучшений и реальные результаты (сотни ошибок, 64 pull requests, 51 issue за первую неделю). Однако Джессика Лайонс использует саркастичный тон заголовка ("Yoo-hoo, look over here") и указывает на подозрительный контекст: объявления приходят в момент, когда политическое давление на Anthropic затрудняет использование их моделей для поиска уязвимостей...

45 минут назад

Управление языком в LLM: почему прилагательные работают по-разному на разных моделях

Как управлять LLM через язык (prompt engineering) остаётся черным ящиком. Авторы предложили строгий фреймворк через Shapley-значения для количественного измерения влияния отдельных прилагательных на производительность модели. Тестировали 100 прилагательных на 5 архитектурах (o3, gpt-4o-mini, phi-3, llama-3-70b, deepseek-r1) на MMLU-бенчмарке. Ключевые находки: (1) малое подмножество прилагательных работает как мощные "рычаги" управления; (2) эффект не универсален, модели одной линии (e.g., семейство...

1 час назад

VibeThinker-3B: 3 млрд параметров, которые конкурируют с Opus на задачах reasoning

Исследовательская работа показывает, что reasoning можно эффективно сжать в компактные модели. VibeThinker-3B (всего 3 млрд параметров) достигает 94.3 на AIME26 (улучшается до 97.1 с test-time scaling), 80.2 Pass@1 на LiveCodeBench v6 и 96.1% acceptance на свежих LeetCode контестах. Это соответствует уровню frontier-систем, которые на порядок больше. Достигается через curriculum-based supervised fine-tuning, multi-domain reinforcement learning (GRPO) и offline self-distillation. Авторы вводят Parametric...

1 час назад