72 подписчика

Что на самом деле происходит в передовой AI: разговор китайских разработчиков на Reddit, который всё изменил

1 февраля1 фев

12 мин

Представьте себе: прошло всего два дня после того, как Moonshot AI выпустила то, что аналитики называют самой мощной открытой моделью ИИ из когда-либо созданных. И вот — команда китайской компании логинится на Reddit, чтобы ответить на вопросы разработчиков. Кими K2.5 уже наделала шума в новостях: говорят, модель закрывает разрыв с американскими гигантами и проверяет границы санкций на экспорт чипов. Но когда я читаю, что произошло в ветке r/LocalLLaMA — а это место, где инженеры обсуждают, как запустить мощные языковые модели на чём угодно, от одного потребительского GPU до целого шкафа железа — становится ясно: разработчики волновались совсем о другом. Они просто хотели знать: когда они смогут это использовать? Трёхчасовая сессия вопросов и ответов стала неожиданно честным окном в мир разработки ИИ в 2026 году. Не в тот полированный вариант, что печатают в корпоративных блогах, а в реальную, беспорядочную работу: отладку ошибок, дрейф личности модели, и главное противоречие, которое

Оглавление

Открытость, которая осталась только на бумаге
Закон масштабирования упирается в потолок — и всё это знают
Как 100 агентов общаются, не сходя с ума

Они просто хотели знать: когда они смогут это использовать?

Трёхчасовая сессия вопросов и ответов стала неожиданно честным окном в мир разработки ИИ в 2026 году. Не в тот полированный вариант, что печатают в корпоративных блогах, а в реальную, беспорядочную работу: отладку ошибок, дрейф личности модели, и главное противоречие, которое сейчас определяет весь open-source AI.

Открытость, которая осталась только на бумаге

Moonshot опубликовала веса модели для скачивания и кастомизации. Файл весит примерно 595 гигабайт. Вот в чём подвох: для большинства разработчиков в треде эта открытость осталась чистой теорией.

Три члена команды Moonshot участвовали под никнеймами ComfortableAsk4494, zxytim и ppwwyyxx. За примерно 187 комментариев они отвечали на вопросы об архитектуре, методологии обучения и даже о том, что такое «душа» AI модели. И главное — показали, откуда придёт прогресс дальше. Спойлер: не просто из большего количества параметров.

Первая волна вопросов была суровой. Разработчики просили меньшие модели, которые они реально могут запустить. Модели на 8B, 32B, 70B параметров — размеры, где «интеллектуальная плотность» оптимальна, как написал один пользователь. Другой пожаловался: гигантские модели уже невозможно праздновать, потому что большинство просто не могут их запустить. Третий указал на американских конкурентов и попросил специализированные версии для кодирования, которые влезут на скромные GPU.

Команда Moonshot не анонсировала новую меньшую модель прямо с места. Но признала спрос. «Заявки приняты!», — написал один из них. Другой отметил: да, у них есть меньшие mixture-of-experts модели на Hugging Face, но small и large модели требуют разных инженерных подходов.

Самый откровенный ответ пришёл, когда кто-то спросил о модели на 100 миллиардов параметров для локального использования. Команда Kimi предложила компромисс: модель на 200-300 миллиардов параметров, которая не упадёт ниже какого-то порога полезности для большинства задач.

Видите, в чём беда? 200-300 миллиардов — это да, расширение доступа в сравнении с триллионом параметров. Но это всё ещё требует multi-GPU установки или агрессивной квантизации. Разработчики не просили «немного меньше». Они просили модели под то железо, которое у них уже есть. И они хотели видеть планы, где локальное развёртывание — не хобби энтузиастов, а приоритет.

Закон масштабирования упирается в потолок — и всё это знают

Когда обсуждение перешло от железа к более интересному — один участник спросил прямо: масштабирование «упёрлось в стену»?

Ответ Moonshot звучал как диагноз, который сейчас слышишь всё чаще по всей индустрии: «Объём высококачественных данных растёт не так быстро, как доступные вычисления. Поэтому масштабирование при классическом подходе — «следующий токен с интернет-данных» — даёт меньше улучшений».

И вот они предложили свой выход. Они указали на Agent Swarm — способность Kimi K2.5 координировать до 100 суб-агентов параллельно — как на форму «масштабирования на этапе вывода», которая может открыть новый путь к росту способностей.

Получается, масштабирование не обязано означать только больше параметров при обучении. Это может означать больше структурированной работы на этапе генерации, а потом — возврат этих insights обратно в обучение через reinforcement learning. «Возможно, появятся новые парадигмы масштабирования», — написал один из co-hosts. «Впереди, похоже, модель, которая учится с меньше человеческих приоритетов или вообще без них».

Послушайте, это важно: единица прогресса сдвигается. От количества параметров и кривых loss при предобучении — к системам, которые могут планировать, делегировать, проверять. Системы, что используют инструменты и суб-агентов как кубики, а не полагаются на один огромный forward pass.

Как 100 агентов общаются, не сходя с ума

На бумаге Agent Swarm звучит знакомо: просто много AI агентов работают над задачей. Но сессия вытащила на свет важные детали — где хранится память, как организована координация, почему оркестровка не превращается в шум.

Один разработчик поднял классическую проблему multi-agent систем. На масштабе 100 агентов оркестратор часто становится узким местом — и по задержкам, и по тому, что сообщество зовёт «контекстной гнилью»: когда история разговора забивается внутренними переговорами и следами инструментов, модель теряет нить.

Ответ был технически красивый и очень практичный. Suб-агенты работают со своей памятью, результаты отправляют оркестратору — не всё в общий контекст. «Это позволяет нам масштабировать общую длину контекста в новом измерении!», — написал co-host.

Когда скептики спросили о цифрах — Moonshot говорит про 4.5 кратное ускорение на подходящих рабочих потоках — команда согласилась: да, это зависит от задачи. Иногда система решает, что параллелизм не нужен, и не тратит лишние вычисления. Каждому суб-агенту выделяется бюджет токенов, оркестратор это управляет.

Если читать это как инженерию, а не маркетинг, Moonshot описывает знакомый паттерн: чистая control plane, ограниченные выходы от worker процессов, не заваливаем координатора логами, которые он не переварит.

Reinforcement learning — вот куда идут вычисления

Самый важный сдвиг в этой сессии — не новый результат на бенчмарке. Это заявление о приоритетах.

Когда спросили, переключается ли Moonshot вычисления от System 1 (предобучение) на System 2 (reinforcement learning) — то есть от широкого обучения паттернам к явному вознаграждению рассуждений и правильного поведения на многошаговых задачах — ответ был: да, RL вычисления будут расти, и новые RL objective функции появятся, «особенно в пространстве агентов».

Это читается как дорожная карта. По мере того, как модели используют больше инструментов и разбивают задачи — лаборатории будут тратить больше бюджета на обучение моделей работать хорошо в роли агентов. Не просто предсказывать токены.

Для корпораций это важно, потому что улучшения через RL часто приходят с компромиссами. Модель может стать более решительной, более охочей на инструменты, или более верной reward сигналам, которые не совпадают с ожиданиями компании. Сессия не утверждала, что Moonshot решила эти противоречия. Но намекала: в следующем цикле рычаг будет не «купи больше GPU», а reinforcement learning.

Когда спросили про разрыв в вычислениях между Moonshot и американскими лабами с намного большими GPU флотами, ответ был честный. «Разрыв не закрывается, я бы сказал», — написали они. «Но сколько вычислений нужно для AGI? We will see». А потом добавили философски: «Слишком много факторов влияет на доступные вычисления. Но в любом случае — инновации любят ограничения».

Когда модель называет себя Claude — это проблема?

Open-weight релизы теперь встречают подозрением: может, модель слишком много учится у конкурентов? Особенно опасаются дистилляции — когда один ИИ обучается на выходах другого.

Разработчик поднял неудобный вопрос: K2.5 иногда называет себя «Claude», моделью Anthropic. Намёк был тяжёлый — много заимствований.

Moonshot не отрицала поведение. Описала условия: с правильным system prompt модель с высокой вероятностью говорит «Kimi», особенно в режиме размышлений. Но с пустым system prompt модель дрейфует в «неопределённую область», которая отражает распределение данных предобучения, а не целенаправленный выбор.

Потом объяснение: Moonshot upsampled новые интернет-данные про кодирование при предобучении, и эти данные связаны с токеном «Claude» — вероятно, потому что разработчики, обсуждая AI кодинг ассистентов, часто упоминают Anthropic.

На дистилляцию они ответили бенчмарками: «K2.5 на самом деле превосходит Claude на многих бенчмарках. HLE, BrowseComp, MMMU Pro, MathVision — вот только несколько».

Для корпоративных пользователей суть не в интернет-драме. Суть в том, что дрейф идентичности — реальный баг. И его часто можно смягчить контролем system prompt, а не оставлять самоописание модели на волю случая. Сессия подошла к governance prompt как к операционной гигиене, а не фишке для пользовательского опыта.

Личность модели потеряла вкус — что с этим делать?

Постоянный мотив в ветке: K2.5 пишет более скучно, чем старые Kimi. Больше как «полезный помощник» — то есть default личность for heavily post-trained моделей. Кто-то спросил: что произошло с личностью Kimi K2?

Co-host признал: каждый релиз приносит какой-то сдвиг личности, и личность — субъективна, сложно оценивать. «Это довольно сложная проблема», — написали они. Хотят улучшить и сделать личность кастомизируемой на пользователя.

В отдельном обсуждении про компромисс между coding способностями и creative writing кто-то из Kimi ответил: нет противоречия, если модель достаточно большая. Но удерживать «вкус письма» между версиями — сложно, потому что reward model постоянно меняется. Они полагаются на внутренние бенчмарки — вид мета-оценки — чтобы отслеживать progress в creative writing и подстраивать reward models.

Ещё один ответ зашёл дальше, используя язык, который звучит странно в корпоративной AI спецификации, но знаком каждому, кто пользуется этими инструментами. Они говорили о «душе» reward model и предложили идею хранить user «state», отражающий вкус и кондиционирующий выход модели.

Это указывает на product frontier, который корпорации часто недооценивают. Drift стиля — не просто эстетика. Это меняет, как модель объясняет решения, как она балансирует, как работает с неопределённостью, как взаимодействует с клиентами и сотрудниками. Сессия показала: лаборатории всё чаще рассматривают «вкус» и как alignment переменную, и как дифференциатор. Но это остаётся сложно измерять, и ещё сложнее удерживать константным между runs обучения.

Отладка — неромантичная правда о frontier AI

Самый открытый момент пришёл в ответ на вопрос о неожиданностях во время обучения и RL. Co-host ответил одним словом, которое выделил жирным: отладка.

«Предобучение ли, post-training ли — одна вещь постоянно проявляет себя как абсолютный приоритет: отладка. Так вот что на самом деле происходит в frontier AI research!

Когда спросили про «scaling ladder» методологию для оценки идей при разных размерах моделей, zxytim рассказал историю неудачи. Команда однажды поспешила с Kimi Linear — экспериментальной linear-attention архитектурой — в предыдущее поколение модели. Не прошла scaling ladder на определённом масштабе. Они вернулись и прошли «сложный процесс отладки», и после месяцев наконец заставили работать.

«Статистически большинство идей, что работают на маленьком масштабе, не пройдут scaling ladder. Те, что проходят — обычно простые, эффективные, математически обоснованные. Research — это в основном управление отказами, а не празднование успехов».

Для технических лидеров, которые выбирают AI vendors: признание поучительно. Frontier capability появляется не из элегантных breakthrough’ов одних. Это выходит из неумолимой изоляции ошибок — и из культур организаций, готовых месяцами разбираться с проблемами, которые могут не сработать.

Что готовится дальше: K3 и новые горизонты

Сессия также работала как тизер для следующего поколения. Разработчики спросили, будет ли Kimi K3 использовать Moonshot’s linear attention research, что работает с длинным контекстом эффективнее чем классическое attention. Команда намекнула: серьёзно рассматривается. «Вероятно, Kimi Linear будет частью K3», — написали. «Мы также включим другие оптимизации».

В другом обмене co-host предсказал K3 «будет намного, если не в 10 раз, лучше чем K2.5».

Команда также отметила continual learning как направление, что активно исследуется. Будущее, где агенты эффективно работают на более длинных временных горизонтах — это критично для enterprise, если агенты должны справляться с ongoing проектами, а не single-turn задачами. «Мы верим, что continual learning улучшит agency и позволит агентам эффективно работать намного дольше», — написали они.

На Agent Swarm конкретно: команда планирует сделать orchestration scaffold доступным для разработчиков, как только система станет стабильнее. «Надеемся очень скоро», — добавили.

Главное, что раскрыла эта сессия

Ветка не ответила на все вопросы. Самые технические — про multimodal training recipes, защиту от reward hacking, data governance — отложили на технический отчёт. Обычное дело: много лабораторий теперь держат самые операционально важные детали в секрете.

Но всё равно — вышло наружу, куда сдвинулись реальные состязания в AI. Разрыв, который важен больше всего — не между Китаем и США, не между открытым и закрытым. Это разрыв между тем, что обещают модели, и тем, что системы реально доставляют.

Оркестровка становится продуктом. Moonshot не просто отправляет модель. Это ship worldview: следующие gains придут из агентов, что разбивают работу, используют инструменты, возвращают structured results быстро. Open weights сталкиваются с реальностью железа — разработчики требуют открытости, что работает локально, а не открытость, что требует data center. И battleground сдвигается от raw intelligence к надёжности. От победы бенчмарк на два пункта — к отладке tool-calling дисциплины, управлению памятью в multi-agent workflows, сохранению той самой hard-to-quantify «вкуса», которая определяет, доверяют ли пользователи выходу.

Moonshot пришла на Reddit вслед за high-profile релизом и растущей геополитической нарративом. А разработчики там волновались о более практичном: когда «open» на самом деле означает «usable»?

В этом смысле сессия не только маркетила Kimi K2.5. Это был snapshot индустрии в переходе — от больших моделей к более structured computation, от closed API к open weights, что всё ещё требуют серьёзной инженерии для развёртывания, и от празднования успехов к управлению отказами.

«Research — это в основном управление отказами», — написал один из инженеров Moonshot. К концу ветки стало ясно: deployment — тоже.

Интересует вас, как на самом деле развивается технология, где появляются инновации и какие вызовы стоят перед разработчиками? Это история, которая показывает реальную кухню AI — не маркетинг, а живой разговор инженеров с инженерами.🔔 Чтобы больше узнать о развитии открытого AI, агент-системах и будущем машинного обучения, подпишитесь на мой канал «ProAI» в Telegram!