Марковское мышление: когда ИИ думает порциями, а не бесконечно
Представьте: искусственный интеллект размышляет часами над сложной задачей, но это не стоит целое состояние. Звучит как фантастика? Но именно это предложили учёные из Mila. Они придумали технику под названием Markovian Thinking, которая делает нейросети невероятно более экономными, когда те решают по-настоящему сложные проблемы.
Суть в том, что раньше длинные цепочки рассуждений обходились супердорого. А теперь? Модель с 1,5 миллиардами параметров может сократить затраты на обучение больше чем в два раза. Вот это да, правда?
Почему длинные рассуждения были такой проблемой
Чтобы решить сложную задачу, ИИ генерирует целую цепочку промежуточных «размышлений» — так называемую цепочку мыслей (chain-of-thought). И вроде бы это классно улучшает результаты. Но вот беда.
С каждым новым токеном (единицей информации) размер «состояния» модели растёт. Для современных трансформеров это означает, что вычислительные затраты взлетают в квадрате. То есть, если размышлений в два раза больше, затраты растут в четыре раза. Неудивительно, что разработчики просто ограничивают длину рассуждений или вообще их обрубают.
Но учёные из Mila пошли другим путём. Вместо того чтобы контролировать рост вычислений, они переделали всю саму схему.
Delethink: мышление порциями по 8000 токенов
Ключевая идея простая и гениальная одновременно: пусть модель думает, но не в один бесконечный поток, а порциями фиксированного размера. Скажем, по 8000 токенов за раз.
Вот как это работает:
- Модель начинает размышлять в рамках одной порции обычным способом
- Когда лимит достигнут, контекст обнуляется
- Создаётся новый запрос: исходный вопрос плюс короткий «остаток» из предыдущей порции — например, последние несколько токенов или краткое резюме
- Модель продолжает мысль дальше
Звучит рискованно, правда? А что, если модель забудет важную информацию? Но вот что занятно: при обучении модель сама научается, что именно нужно запомнить для продолжения. Она учится встраивать «текстовое марковское состояние» в этот остаток. Умно, да?
Результаты: порядок экономии огромный
Исследователи обучали модель R1-Distill-1.5B на задачах олимпиадного уровня в математике. Модель могла размышлять до 24 000 токенов, но блоками по 8 000. И угадайте что? Результаты совпали или даже превзошли обычный подход на бенчмарках.
Но самое интересное началось дальше. Когда модель выходила за пределы бюджета обучения (те же 24 000 токенов), стандартный подход просто встал на месте. А Delethink продолжал улучшаться. Некоторые задачи решались только после 140 000 токенов размышлений!
На что это влияет в реальности? На стоимость. Обучить модель на среднем уровне размышлений в 96 000 токенов обычным методом потребует 27 месяцев работы GPU H100. С Delethink — всего 7 месяцев. Это же экономия в 75%.
И что самое удивительное
Даже готовые модели рассуждений, которые специально не обучались на этом методе, уже немного умеют думать «марковским» способом. Это означает, что разработчики могут просто обернуть существующую модель в специальный wrapper — и она будет работать эффективнее. Без переобучения!
Исследователи протестировали это на больших моделях типа GPT-OSS 120B. Результаты впечатляют: метод работает стабильно на сложных задачах.
В общем, перед нами лежит дорога к моделям, которые смогут «размышлять» миллионы токенов. Это открывает дверь в совершенно новый мир: от дебага больших кодовых баз до научных открытий. Вот это я понимаю — прорыв.
Ещё важное из мира ИИ на этой неделе
Alibaba расширила свой инструмент Qwen Deep Research — теперь это полноценная модальность в Qwen Chat, конкурент ChatGPT. DeepSeek-OCR от компании научилась сжимать текст через визуальное представление в 10 раз эффективнее обычных токенов. Это круто переворачивает представление о том, как работают контекстные окна.
Google AI Studio получила серьёзный апгрейд интерфейса — теперь даже полные новички могут создать приложение и развернуть его в сети за считаные минуты. Не нужно писать код, просто идея.
OpenAI выпустила браузер Atlas (доступен на macOS, Windows и Android выходят скоро). Это был слух несколько месяцев назад, и вот — готово. Вызов Chrome уже близко.
Anthropic развивает Claude Code и представляет Skills для Claude — это папки с инструкциями и кодом, которые автоматически подгружаются, когда нужны. Смена парадигмы: вместо одноразовых подсказок — переиспользуемые пакеты знаний для всей компании.
Adobe запустила Adobe AI Foundry для кастомизации моделей Firefly под конкретные задачи предприятия. Stripe объявила Trusted Agent Protocol — инфраструктуру для «агентной коммерции», когда ИИ за вас покупает товары, сравнивает цены и платит.
Google добавила в Gemini возможность привязки к Google Maps — фишка, которую конкуренты вроде ChatGPT вряд ли скоро получат. Anthropic выпустила Haiku 4.5 — модель в три раза дешевле Sonnet 4, но работает в два раза быстрее и даже лучше справляется с автоматизацией компьютеров.
Google представила Veo 3.1 для генерации видео — улучшена нарративная управляемость, интеграция с аудио, реалистичность. Dfinity выпустила Caffeine — платформу для создания веб-приложений через разговор на естественном языке, без кодинга вообще.
Стартап Strella привлёк 14 миллионов в Series A для своей платформы AI-исследования клиентов. Лидер раунда — Bessemer Venture Partners. Microsoft активнее всех интегрирует ИИ в десктоп — уже не чат-боты, а полноценные агенты, которые могут разговаривать с компьютером и выполнять сложные задачи.
Stanford и SambaNova представили фреймворк Agentic Context Engineering (ACE) — это про умное управление контекстным окном для надёжных ИИ-агентов. Walmart и OpenAI продвигаются с интеграцией ChatGPT — главная проблема: как безопасно отпустить агента делать покупки.
Следить за такими прорывами в ИИ важно каждый день. Технологии меняются буквально на глазах, и пропустить ключевое обновление — это реально потеря.🔔 Чтобы не упустить главное о марковском мышлении, новых моделях и агентах ИИ, подписывайтесь на мой канал «ProAI» в Telegram!