Найти в Дзене
Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели
Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей. Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных. Исследователи предложили метод Bayesian Teaching: модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях. Что получилось: - LLM начинают лучше обновлять свои предположения, когда получают новую информацию...
26 минут назад
Google Research показали способ научить LLM рассуждать более рационально - как байесовские модели
Идея проста: вместо того чтобы просто генерировать текст, модель обучают обновлять свои убеждения при появлении новой информации, как это делает теория вероятностей. Проблема в том, что обычные LLM плохо работают с неопределённостью. Когда появляется новая информация, они не всегда корректно пересматривают свои выводы и часто не улучшают предсказания даже при увеличении количества данных. Исследователи предложили метод Bayesian Teaching: модель обучают имитировать решения оптимальной байесовской модели, которая считается математически правильным способом рассуждать о вероятностях. Что получилось: - LLM начинают лучше обновлять свои предположения, когда получают новую информацию...
26 минут назад
BullshitBench v2, созданный Питером Гостевым, - это бенчмарк, который проверяет, способны ли модели ИИ распознавать бессмысленные запросы и
отказываться на них отвечать, вместо того чтобы уверенно продолжать и «придумывать» ответ. Только модели Claude от Anthropic и Qwen 3.5 от Alibaba показывают результат выше 60% по распознаванию бессмыслицы. А модели OpenAI и Google? Застряли на месте и почти не улучшаются. Еще более неожиданно: модели...
35 минут назад
⚡️ Anthropic расширила возможности skill-creator
Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код. В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен. 🟡 Центральный инструмент - evals (автотесты качества). Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него...
18 часов назад
🔥 Легендарный математик - Дональд Кнут начал свою новую научную работу словами: “Shock! Shock
!” Почему? Потому что Claude Opus 4.6 решил открытую задачу, над которой Кнут работал несколько недель. Речь о гипотезе разложения графов из легендарной книги The Art of Computer Programming. Кнут даже назвал статью в честь ИИ: “Claude’s Cycles” Что произошло: - Claude провёл 31 исследование - на это ушло примерно 1 час - Кнут изучил результат...
22 часа назад
⚡️ ChatGPT-5.3 Instant
Похоже, это такая новая тенденция - релизить новинки синхронно. OpenAI развернула GPT-5.3 Instant, масштабный апдейт своей самой используемой модели. В этот раз создатели сфокусировались на качестве общения: модель стала реже отказывать в обработке безопасных запросов и избавилась от излишне осторожных, морализирующих нравоучений. Существенно улучшена логика работы с веб-поиском. GPT-5.3 Instant глубже синтезирует найденные данные с собственными знаниями, не сводя выдачу к простому перечислению ссылок...
1 день назад
⚡️ Gemini 3.1 Flash-Lite - самый экономичный Gemini 3
Google представил Gemini 3.1 Flash-Lite - ультрабыструю и максимально дешёвую модель в линейке Gemini 3. Цена - всего $0.25 за 1 млн входных токенов и $1.50 за 1 млн выходных токенов. Модель выполняет задачи быстрее и обходится в разы дешевле крупных моделей, обеспечивая увеличение скорости генерации на 45% по сравнению с Gemini 2.5 Flash. Главное: • Настраиваемые уровни "мышления" Можно регулировать глубину рассуждения под задачу - от лёгких операций до более сложной логики...
1 день назад
🌟 Как YouTube ускорил проверку валидных рекомендаций в LLM в 948 раз
YouTube и Google DeepMind опубликовали статью и код фреймворка STATIC. Проблема, которую он решает, хорошо знакома всем, кто строит рекомендательные системы на базе LLM: модель генерирует идентификаторы позиций, которых нет в каталоге, вышли из продажи или нарушают бизнес-правила. Именно поэтому YouTube выдает старые видео в ленте там, где должны появляться ролики последней недели. Очевидное решение - префиксное дерево: на каждом шаге декодирования маска блокирует невалидные токены. Работает в целом нормально, но убивает производительность на TPU и GPU...
1 день назад
⚡️ Claude Code для Уолл-стрит
Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека. Вы задаёте вопрос, например: *NVIDIA недооценена по DCF?* Дальше система работает сама: - строит план исследования - подтягивает актуальные рыночные данные - загружает финансовую отчётность за 5 лет - считает ключевые метрики и мультипликаторы - проверяет свои же расчёты на ошибки - формирует итоговый инвестиционный вывод И всё это — автономно. Как это устроено:...
1 день назад
Главные новости ИИ И МЛ
✔️ NVIDIA и лидеры телекома договорились строить 6G с поддержкой ИИ. NVIDIA объявила о создании глобальной коалиции с Cisco, Nokia, Ericsson, T-Mobile и другими телеком-гигантами для разработки инфраструктуры связи шестого поколения. Главная цель инициативы в отказе от устаревших подходов в пользу программно-определяемых сетей с глубокой интеграцией ИИ. 6G станет базой для физического ИИ: автономного транспорта, промышленных роботов и умных сенсоров. Альянс предлагает внедрять ИИ-вычисления на всех уровнях: от сети радиодоступа до периферии и ядра...
1 день назад
⚡️ ChatGPT-5.4 - что уже «утекло» и почему это важно
Похоже, вокруг GPT-5.4 начинает формироваться серьёзный шум. Вот что обсуждают в сообществе 👇 - 2M токенов контекста + persistent memory Это уже не просто «длинная история чата», а полноценная работа с огромными кодовыми базами, документами и агентными пайплайнами без постоянного перепромптинга. - Полноразмерная обработка изображений Модель якобы умеет работать с PNG, JPEG и WebP без понижения качества. Это критично для: - архитектурных чертежей - плотных UI-скриншотов - схем и графиков с мелким...
1 день назад
🌟 GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами
Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами. Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов: Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса). Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно...
2 дня назад