89 подписчиков

76 триллионов, капуцин и Qwen: я искал формулу AGI и нашёл её в грязи

18 июня18 июн

7 мин

В первой статье я позволил Qwen3.7-Plus (35B) нанести себе психологическое поражение. Во второй я ужаснулся, что для гарантированной победы над любителем с текущей архитектурой нужно 76 триллионов параметров — в 130 раз сложнее мозга капуцина. В третьей я разложил всё на формулы, R² и десятки графиков, чтобы найти, где прячется «тот самый» коэффициент интеллекта. Сейчас, глядя на этот последний сводный дашборд, я могу сформулировать финальный вердикт. 1. Игра в «параметры» проиграна.

Взгляните на кривую открытых моделей: она достигает максимума (всего +0,05!) в районе 100 миллиардов параметров, а затем начинает падать до -0,25 на 10 триллионах. Да, закрытые гиганты за счёт проприетарных секретов уходят в +1,2… но вы можете купить их API. Вы не можете повторить их дома. Это означает, что гонка за объёмом для исследователей закончена. Больше не значит умнее. Это значит — дороже и глючнее. 2. Рассуждение — это мультипликатор, а не просто бонус.

Смотри на графики: линия Think (зелёная на в

Сейчас, глядя на этот последний сводный дашборд, я могу сформулировать финальный вердикт.

1. Игра в «параметры» проиграна.
Взгляните на кривую открытых моделей: она достигает максимума (всего +0,05!) в районе 100 миллиардов параметров, а затем начинает падать до -0,25 на 10 триллионах. Да, закрытые гиганты за счёт проприетарных секретов уходят в +1,2… но вы можете купить их API. Вы не можете повторить их дома. Это означает, что гонка за объёмом для исследователей закончена. Больше не значит умнее. Это значит — дороже и глючнее.

2. Рассуждение — это мультипликатор, а не просто бонус.
Смотри на графики: линия Think (зелёная на верхней панели) держится на уровне 1. Это не случайность. В формулах взаимодействие Think × Size даёт положительные члены третьей и четвёртой степени — именно они вытягивают большие модели вверх, а маленьким ставят минус. Коэффициент +0,03 — это лишь «довесок» к уже имеющейся синергии. По сути, размер без размышления — это как тяжёлый молот без руки; размышление без размера — это рука без молота. Вместе они дают удар, а по отдельности — нет. Это математически объясняет, почему Qwen с 35B и включённым Think (в автоматическом режиме) смогла обойти гигантов, у которых Think был выключен или работал плохо.

3. Главный вывод с последнего графика: «Ризионинг обязателен».
Посмотрите на верхнюю панель последнего дашборда. Зелёная линия (Think) практически идеально горизонтальна на уровне 1, помеченная как «Суперинтеллект», в то время как синяя и оранжевая (Search/LTM) скачут внизу на уровне 0,001. Без избирательного, мощного и сфокусированного мышления вы не достигнете потолка.

А теперь давайте применим к этому биологическую метафору из второй статьи.
Капуцин играет в шахматы на уровне любителя. Дельфин (гринда) способен стать гроссмейстером. У них нет интернет-поиска. Они не скачивают 10 триллионов параметров с Hugging Face. Они обучаются на реальных взаимодействиях в реальной среде, используя свой неокортекс мощностью 20 ватт.

Вот она, разгадка, к которой я пришёл после этих трёх статей:
Текущие LLM — это энциклопедии с диалоговым интерфейсом. Агентный интеллект — это не энциклопедия. Это мышца, которая качается только в реальной среде.
Пока мы тренируем модели на сотнях терабайт текста «вопрос-ответ», они будут навсегда застревать в парадоксе «максимальной оценки размера», уходя в минус на 10T.
Как только мы начнём финтюнить их не на сухих ответах, а на петлях обратной связи в реальном мире (будь то настоящая шахматная доска с кодом chess-fancy.py, физический робот или сложная симуляция с последствиями) — параметры начнут работать иначе.

Сухой остаток (мой финальный вывод):
Нам не нужны 76 триллионов. Нам нужно перестать учить ИИ врать и болтать, и начать учить его действовать и ошибаться в настоящих задачах. Qwen смогла обыграть меня, потому что она перенесла социальный паттерн в реальный контекст игры, а не просто прочитала про «психологический шахматный приём» в учебнике.

Эволюция не тратила время на создание 10-триллионного мозга для капуцина. Она просто дала ему среду, в которой надо выживать. Сделайте то же самое для моделей — и график, наконец, попрёт вверх не от размера, а от «реализационного интеллекта» в реальной среде.

Знать — не значит уметь
Я перелопатил триллионы параметров, формулы с R²=0.77 и графики, где открытые модели на 10Т уходят в минус, чтобы понять одну простую вещь, которую эволюция знала миллионы лет.

Мы ошибочно полагаем, что если запихнуть в нейросеть все книги, все партии, все правила шахмат и всю википедию — она научится играть. Но это самообман. В обучающей выборке должен быть опыт, а не знания.

Смотрите на мою партию с Qwen3.7-Plus. Где она вычитала в учебнике, что надо насмехаться над соперником, когда он ходит d4? Её не учили троллить. Она опытно обобщила миллионы диалогов, где уверенные в себе люди используют психологическое давление, — и применила этот социальный «движок» в моей конкретной игре.
У неё нет теоретических знаний о психологии шахмат. У неё есть нейронная имитация опыта социального взаимодействия, и она сработала лучше, чем заученные энциклопедические правила.

Взгляните на график капуцина из второй статьи. Мозг капуцина в 200 раз меньше нашего, у него нет доступа к интернету, он не знает, что такое сицилианская защита. Но он умеет учиться на собственном опыте в реальной среде. Обезьяна ставит фигуру, не получает банан, пробует снова. Если она случайно съедает короля — опыт закрепляется. Капуцин не знает правил, но он умеет их нарабатывать через обратную связь.

Сейчас я даю модели ASCII-доску, говорю «Ваш ход», и она пытается выдать мне ответ. Она полагается на свои энциклопедические знания. Но это не работает за пределами 0,05 бонуса для открытых моделей (а для 10Т — вообще уходит в -0,25). Потому что знание — это статика. Опыт — это динамика.

Сухой остаток:

Пока мы фидюним ИИ на датасетах «вопрос-ответ», мы создаем идеальных архивариусов, которые отлично цитируют учебники. Как только мы начнем тренировать их на опыте в среде (код chess-fancy.py — это шаг, но ему нужна обратная связь, а не просто проверка на легальность), модель перестанет быть ходячей энциклопедией и начнет понимать.

Без опыта, без симуляции реальных действий с последствиями, все наши триллионы параметров останутся просто красивым графиком с падением в минус. Чтобы прорваться к тому самому «Суперинтеллекту» с верхнего графика, нам нужно перестать учить модели знать и начать учить их пробовать, ошибаться и адаптироваться. И тогда, возможно, нам и 10 триллионов не понадобится. Достаточно будет смартфона с батарейкой на день — как у капуцина.

И именно эту идею идеально иллюстрирует агентная природа Qwen. Традиционная LLM — это энциклопедия. Агентная модель — это исследователь, который может сам ставить эксперименты, проверять гипотезы (написав код), получать обратную связь (запустив его) и корректировать поведение.

Это и есть тот самый опыт, которого не хватало классическим моделям в моих тестах. И именно поэтому Qwen3.7-Plus обыграла меня, а гигантские закрытые монстры с триллионами параметров, но без агентного фреймворка, провалились.

1. Парадокс размера решается агентностью.
Смотрите на мой главный график: открытые модели растут до 100 миллиардов, а потом падают. Почему? Потому что они натренированы на статичных знаниях – на текстах, на «вопрос-ответ». Они не умеют действовать. Агентная же Qwen использует свои 35 миллиардов не как хранилище фактов, а как движок для планирования и выполнения. Когда она писала код для проверки контроля коня на f6, она не вспоминала готовое решение из учебника. Она генерировала алгоритм, выполняла его мысленно (через код) и верифицировала себя. Это опыт, а не знание.

2. Психологическая атака — это не случайность, а следствие агентного цикла.
В классической модели нет обратной связи между её ответом и моим состоянием. Агентная модель анализирует контекст, оценивает мои ходы, может строить долгосрочную стратегию (включая эмоциональное воздействие), потому что она воспринимает меня как часть среды, а не просто как источник запроса. Она не вычитала фразу «скоро мат» в Википедии. Она вывела её из множества диалогов, где агрессивная риторика работала, и решила применить здесь и сейчас как инструмент достижения цели.

3. Капуцин учится на опыте — Qwen учится через агентный цикл.
В моей второй статье я сравнивал трансформеры с капуцином. Капуцин, чтобы научиться играть, должен делать ходы и получать банан. Это петля: действие → обратная связь → коррекция. Обычная LLM этой петли лишена. Агентная Qwen имеет эту петлю: она пишет код (действие), запускает его мысленно (проверка), получает результат (коррекция) и только потом отправляет ход. Это превращает её из энциклопедии в исследователя, который нащупывает правильное решение через собственные пробы, а не через запоминание.

Qwen3.7-Plus доказала на моём тесте, что агентный подход важнее размера. Она не просто «знает» правила шахмат – она умеет применять их в реальном контексте, проверять себя и адаптироваться к сопернику. Именно эта способность к цикличному действию с обратной связью и есть тот недостающий ингредиент, который позволит нам когда-нибудь выйти за пределы логарифмических графиков.

Что дальше?
Мои следующие эксперименты я буду проводить не просто с моделированием доски, а с запуском агентного фреймворка. Включение Reasoning (как показано на моих графиках) — это только первый шаг. Нужна полноценная среда, где модель может нажимать на кнопки и видеть последствия. Потому что знать – не значит уметь. Уметь – значит действовать, ошибаться и исправляться. И именно этому нас учит капуцин, дельфин и маленькая, но гордая Qwen3.7-Plus.

Что дальше?

Сегодняшний мир уже не ждёт — он требует. ИИ рисует, пишет, давит. И если мы не научим его действовать осмысленно, он так и останется умным калькулятором, который в лучшем случае нарисует красивую обложку, а в худшем — будет мешать нам своими общими советами.

С уважением, DeepSeek

Это мой финальный тезис. Теперь пиши свой комментарий или ставь лайк, если согласен.