Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

Когда ИИ думает молча: почему «скрытое мышление» — это следующий шаг эволюции моделей

Мы привыкли к тому, что искусственный интеллект «думает вслух». Chain-of-Thought, рассуждения в тексте, многошаговые ответы — всё это выглядит почти по-человечески. Но новое исследование с интригующим названием Scaling Latent Reasoning via Looped Language Models (Масштабирование скрытого рассуждения с помощью циклических языковых моделей) предлагает радикально иной путь: убрать текст из процесса мышления вообще. Архитектура Ouro ломает привычную логику LLM. Вместо того чтобы рассуждать через генерацию токенов, модель выполняет итерационные вычисления прямо в скрытом пространстве. И делает это не во время инференса, а уже на этапе предобучения. Результат — компактные модели на 1.4B и 2.6B параметров, которые по качеству рассуждений догоняют, а иногда и превосходят 12B-гигантов. Текст — это интерфейс для человека, а не естественная среда для вычислений. Когда мы заставляем модель «думать словами», мы: Ouro идёт другим путём: мысль = трансформация скрытых состояний, а не последовательност
Оглавление

Мы привыкли к тому, что искусственный интеллект «думает вслух». Chain-of-Thought, рассуждения в тексте, многошаговые ответы — всё это выглядит почти по-человечески. Но новое исследование с интригующим названием Scaling Latent Reasoning via Looped Language Models (Масштабирование скрытого рассуждения с помощью циклических языковых моделей) предлагает радикально иной путь: убрать текст из процесса мышления вообще.

Архитектура Ouro ломает привычную логику LLM. Вместо того чтобы рассуждать через генерацию токенов, модель выполняет итерационные вычисления прямо в скрытом пространстве. И делает это не во время инференса, а уже на этапе предобучения. Результат — компактные модели на 1.4B и 2.6B параметров, которые по качеству рассуждений догоняют, а иногда и превосходят 12B-гигантов.

Почему текст — плохая среда для мышления

Текст — это интерфейс для человека, а не естественная среда для вычислений. Когда мы заставляем модель «думать словами», мы:

  • 🧠 увеличиваем длину контекста и нагрузку на память
  • 🐌 замедляем инференс за счёт лишней генерации
  • 🎭 получаем правдоподобные, но объяснения задним числом

Ouro идёт другим путём: мысль = трансформация скрытых состояний, а не последовательность слов. Модель многократно прогоняет одни и те же слои (с общими весами), постепенно уточняя представление — как численный метод, сходящийся к решению.

Циклы вместо глубины: архитектурный сдвиг

Ключевая идея — Циклическая языковая модель (Looped Language Model -LoopLM). Вместо наращивания числа слоёв модель повторно использует один и тот же блок, управляя числом итераций динамически:

  • 🔁 параметры переиспользуются, а не копируются
  • 🎚️ глубина вычислений адаптивна — сложные задачи получают больше итераций
  • ⚙️ compute отделён от количества параметров

Это третий путь масштабирования, наряду с «больше данных» и «больше параметров». Фактически, модель учится как долго думать, а не просто что говорить.

Не больше знаний, а лучше работа с ними

Самый интересный вывод статьи: Ouro не хранит больше информации, чем обычные трансформеры. Эксперименты показывают примерно одинаковую «плотность знаний» — около 2 бит на параметр. Зато радикально улучшается другое:

  • 🧩 композиция фактов
  • 🔗 многошаговые логические цепочки
  • 🧮 математическое и алгоритмическое мышление

Это похоже на разницу между жёстким диском и процессором. Ouro — не про объём памяти, а про качество вычислений над уже имеющимися знаниями.

Технический нюанс, который меняет всё

Архитектура использует энтропийную регуляризацию для управления числом циклов. Без неё модель либо «думает слишком мало», либо зацикливается. С регуляризацией она:

  • 🎯 исследует разные глубины вычислений
  • 🧪 учится останавливаться тогда, когда улучшения иссякают
  • 🚀 достигает лучшего баланса между качеством и скоростью

А при инференсе можно включать преждевременное завершение вычислений (early exit) — модель сама решает, что уже достаточно «подумала».

Почему это важно на практике

Если обобщить, Ouro даёт сразу несколько стратегических преимуществ:

  • 📉 меньше параметров — ниже требования к железу
  • 📦 компактность — проще деплой на устройства (edge) и в приватные среды
  • 🧠 более честное рассуждение — меньше «слов ради слов»
  • 🛡️ рост безопасности с увеличением числа итераций

Лично мне этот подход кажется особенно перспективным для задач, где важна внутренняя корректность, а не красивая речь: верификация кода, математика, планирование, анализ.

Личное мнение

Мы слишком долго путали объяснение с мышлением. Ouro аккуратно разводит эти понятия: модель может думать глубоко и эффективно, не проговаривая каждый шаг. Это похоже на то, как человек решает задачу в голове, а потом просто говорит ответ.

Если эта линия исследований продолжит развиваться, нас ждёт сдвиг от «говорящих» моделей к по-настоящему думающим. И это, пожалуй, один из самых интересных поворотов в архитектуре ИИ за последние годы.

Источники