218 подписчиков

Когда ИИ думает молча: почему «скрытое мышление» — это следующий шаг эволюции моделей

4 января4 янв

3 мин

Мы привыкли к тому, что искусственный интеллект «думает вслух». Chain-of-Thought, рассуждения в тексте, многошаговые ответы — всё это выглядит почти по-человечески. Но новое исследование с интригующим названием Scaling Latent Reasoning via Looped Language Models (Масштабирование скрытого рассуждения с помощью циклических языковых моделей) предлагает радикально иной путь: убрать текст из процесса мышления вообще. Архитектура Ouro ломает привычную логику LLM. Вместо того чтобы рассуждать через генерацию токенов, модель выполняет итерационные вычисления прямо в скрытом пространстве. И делает это не во время инференса, а уже на этапе предобучения. Результат — компактные модели на 1.4B и 2.6B параметров, которые по качеству рассуждений догоняют, а иногда и превосходят 12B-гигантов. Текст — это интерфейс для человека, а не естественная среда для вычислений. Когда мы заставляем модель «думать словами», мы: Ouro идёт другим путём: мысль = трансформация скрытых состояний, а не последовательност

Оглавление

Почему текст — плохая среда для мышления
Циклы вместо глубины: архитектурный сдвиг
Не больше знаний, а лучше работа с ними

Архитектура Ouro ломает привычную логику LLM. Вместо того чтобы рассуждать через генерацию токенов, модель выполняет итерационные вычисления прямо в скрытом пространстве. И делает это не во время инференса, а уже на этапе предобучения. Результат — компактные модели на 1.4B и 2.6B параметров, которые по качеству рассуждений догоняют, а иногда и превосходят 12B-гигантов.

Почему текст — плохая среда для мышления

Текст — это интерфейс для человека, а не естественная среда для вычислений. Когда мы заставляем модель «думать словами», мы:

🧠 увеличиваем длину контекста и нагрузку на память
🐌 замедляем инференс за счёт лишней генерации
🎭 получаем правдоподобные, но объяснения задним числом

Ouro идёт другим путём: мысль = трансформация скрытых состояний, а не последовательность слов. Модель многократно прогоняет одни и те же слои (с общими весами), постепенно уточняя представление — как численный метод, сходящийся к решению.

Циклы вместо глубины: архитектурный сдвиг

Ключевая идея — Циклическая языковая модель (Looped Language Model -LoopLM). Вместо наращивания числа слоёв модель повторно использует один и тот же блок, управляя числом итераций динамически:

🔁 параметры переиспользуются, а не копируются
🎚️ глубина вычислений адаптивна — сложные задачи получают больше итераций
⚙️ compute отделён от количества параметров

Это третий путь масштабирования, наряду с «больше данных» и «больше параметров». Фактически, модель учится как долго думать, а не просто что говорить.

Не больше знаний, а лучше работа с ними

Самый интересный вывод статьи: Ouro не хранит больше информации, чем обычные трансформеры. Эксперименты показывают примерно одинаковую «плотность знаний» — около 2 бит на параметр. Зато радикально улучшается другое:

🧩 композиция фактов
🔗 многошаговые логические цепочки
🧮 математическое и алгоритмическое мышление

Это похоже на разницу между жёстким диском и процессором. Ouro — не про объём памяти, а про качество вычислений над уже имеющимися знаниями.

Технический нюанс, который меняет всё

Архитектура использует энтропийную регуляризацию для управления числом циклов. Без неё модель либо «думает слишком мало», либо зацикливается. С регуляризацией она:

🎯 исследует разные глубины вычислений
🧪 учится останавливаться тогда, когда улучшения иссякают
🚀 достигает лучшего баланса между качеством и скоростью

А при инференсе можно включать преждевременное завершение вычислений (early exit) — модель сама решает, что уже достаточно «подумала».

Почему это важно на практике

Если обобщить, Ouro даёт сразу несколько стратегических преимуществ:

📉 меньше параметров — ниже требования к железу
📦 компактность — проще деплой на устройства (edge) и в приватные среды
🧠 более честное рассуждение — меньше «слов ради слов»
🛡️ рост безопасности с увеличением числа итераций

Лично мне этот подход кажется особенно перспективным для задач, где важна внутренняя корректность, а не красивая речь: верификация кода, математика, планирование, анализ.

Личное мнение

Мы слишком долго путали объяснение с мышлением. Ouro аккуратно разводит эти понятия: модель может думать глубоко и эффективно, не проговаривая каждый шаг. Это похоже на то, как человек решает задачу в голове, а потом просто говорит ответ.

Если эта линия исследований продолжит развиваться, нас ждёт сдвиг от «говорящих» моделей к по-настоящему думающим. И это, пожалуй, один из самых интересных поворотов в архитектуре ИИ за последние годы.

Источники

arXiv: Scaling Latent Reasoning via Looped Language Models
https://arxiv.org/abs/2510.25741
Project page (модели и код):
http://ouro-llm.github.io