228 подписчиков

«Убийца Opus 4.8», которого не было: анатомия фейковой сенсации и чек-лист, как ловить такое за пять минут

3 дня назад3 дня назад

8 мин

Вчера по русскоязычным каналам пролетела «сенсация»: открытый проект NexusCortex якобы обошёл только что вышедший Claude Opus 4.8 — и код, мол, полностью на GitHub, бери и пользуйся. Звучит как мечта: производительность флагмана бесплатно, с полным контролем. Я полез проверять — и за десять минут выяснил, что это неправда. Самое забавное: опровержение лежит прямо в README того самого проекта, написанное рукой его же автора. Так что это не статья про NexusCortex. Это вскрытие: как из честной учебной поделки на ровном месте слепили «убийцу Opus», по каким швам это расходится и — главное — как проделать такую проверку самому, не будучи экспертом. Вброс собран по узнаваемой схеме, и, разобрав её один раз, вы будете щёлкать такие сенсации на лету. Хороший вброс никогда не начинается с нуля — он цепляется за реальное событие. Здесь якорь настоящий: Opus 4.8 действительно вышел 28 мая 2026-го, по той же цене, что и 4.7, с контролем усилий (effort), динамическими рабочими процессами и подешеве

Оглавление

Шаг ноль: у каждого фейка есть якорь правды
Ложь в центре: чем NexusCortex является на самом деле
Искажённый прецедент: «300 строк — и DeepSeek обошёл Opus»

Так что это не статья про NexusCortex. Это вскрытие: как из честной учебной поделки на ровном месте слепили «убийцу Opus», по каким швам это расходится и — главное — как проделать такую проверку самому, не будучи экспертом. Вброс собран по узнаваемой схеме, и, разобрав её один раз, вы будете щёлкать такие сенсации на лету.

Шаг ноль: у каждого фейка есть якорь правды

Хороший вброс никогда не начинается с нуля — он цепляется за реальное событие. Здесь якорь настоящий: Opus 4.8 действительно вышел 28 мая 2026-го, по той же цене, что и 4.7, с контролем усилий (effort), динамическими рабочими процессами и подешевевшим быстрым режимом — fast стал в 2.5 раза быстрее и в 3 раза дешевле. По бенчмаркам он обходит GPT-5.5 и Gemini 3.1 Pro почти везде (SWE-Bench Pro — 69.2% против 64.3% у 4.7), кроме agentic terminal coding, где первым остаётся GPT-5.5. Всё это правда.

Именно поэтому история кажется правдоподобной: процентов восемьдесят фактуры — реальность. Подвох всегда в тех двадцати, что подброшены сверху. Дальше — про них.

Ложь в центре: чем NexusCortex является на самом деле

Я не нашёл проект вообще нигде в поиске — ни обсуждений, ни упоминаний, кроме самого вброса. Для «прорыва недели» это уже звоночек: настоящие SOTA-результаты обрастают спорами за часы. Так что я вытащил README напрямую через raw.githubusercontent.com (репозиторий office233/Nexuscortex) — и там всё встало на места.

NexusCortex — это экспериментальная sparse cognitive architecture на Go. Не языковая модель. Не обвязка над языковой моделью. От слова совсем. Это исследовательско-учебный проект, где человек с нуля собирает низкоуровневые примитивы ИИ, чтобы понять, как они работают изнутри. Что там внутри:

🧠 SDR-внимание — sparse distributed representations: информация кодируется разреженными бинарными векторами, а «похожесть» считается как пересечение единичных битов через popcount (по сути, нейробиологически вдохновлённый аналог attention, а не трансформерный self-attention).

⚙️ Тернарные веса в упаковке RGBA32 — параметры в наборе {−1, 0, +1}, по 0.25 байта на параметр. Это экстремальная квантизация ради памяти и скорости, а не «модель уровня Opus».

🧩 Десять модулей-«зон мозга»: Wernicke, Broca, Hippocampus, Prefrontal, Cerebellum, Emotion, Curiosity, Sleep, Sensory, Reward — и sleep-консолидация памяти (перенос эпизодической памяти в семантическую через replay), идеи Thousand Brains Theory Джеффа Хокинса.

🧪 137 тестов, Go 1.26, опциональный CUDA-бэкенд, лицензия AGPL-3.0.

А теперь — гвоздь. В README автор прямым текстом пишет: «This is not a replacement for frontier LLMs» — это не замена флагманским LLM, и никаких заявлений про AGI он не делает. Раздел бенчмарков называется буквально «local vs own dense baseline»: проект меряется со своим же плотным бейзлайном, чтобы показать выигрыш от разреженности, а не с Opus, GPT или хоть чем-то внешним.

Сравнивать это с Opus 4.8 — даже не «яблоки против апельсинов». Это категориальная ошибка: в проекте нет ничего, что можно осмысленно поставить рядом с флагманской LLM. Всё равно что заявить, будто самодельный детекторный радиоприёмник «обошёл» 5G-модем.

И отдельно, чтобы было честно: автор проекта не сделал ничего плохого. Он выложил аккуратную, любопытную учебную работу и сам же заранее отбил все громкие интерпретации. Фейк родился не в репозитории, а в пересказе — кто-то взял честный pet-проект и переупаковал его в «сенсацию». Виноват не разработчик, а конвейер хайпа.

Искажённый прецедент: «300 строк — и DeepSeek обошёл Opus»

Чтобы «сенсация» не висела в воздухе, её подпирают прецедентом: мол, недавно DeepSeek V4 Pro обошёл Opus 4.7 всего тремя сотнями строк кода для починки вызова инструментов — «модель та же, а обвязка подняла качество». Звучит весомо. Реальность тоньше.

DeepSeek V4 Pro — настоящая открытая MoE-модель (апрель 2026). Но история, на которую опирается новость, — это бенчмарк-марафон блогера AkitaOnRails. Там DeepSeek V4 Pro упирался в баг протокола tool-calling внутри харнесса Claude Code и потому был фактически непригоден в мультиагентных сценариях (Tier B, 69/100). Когда автор нашёл обход (DeepClaude), модель прыгнула в Tier A (89/100) — но он тут же оговаривается: это случилось только потому, что в этом конкретном харнессе регрессировал сам Opus. В честном харнессе (opencode, 97 баллов) DeepSeek явно позади, и в общем зачёте остаётся ниже Opus 4.7, GPT-5.4/5.5 и Kimi K2.6.

Отсюда — техническая мысль, которую путают чаще всего: модель ≠ обвязка. «Обошёл с помощью N строк» почти всегда означает, что починили харнесс, а не саму модель. И сравнивать цифры из разных харнессов в лоб нельзя: на Terminal-Bench 2.0, например, числа у разных команд получены в разных setup'ах, а кросс-харнессовая дельта в 5–10 пунктов спокойно переворачивает рейтинг. Для SWE-Bench Pro обвязки тоже различаются — разницу честнее читать как ±3–5 пунктов.

Что не отменяет настоящего, нюансированного факта: открытые модели и правда местами уже впереди. Тот же DeepSeek V4 Pro обходит Opus 4.7 на agentic-поиске (BrowseComp 83.4% против 79.3%). Реальная картина — «открытое догоняет на отдельных осях», а не «open-source разгромил флагманов и теперь всё бесплатно». Новость взяла нюанс и раздула его до лозунга.

Собственно анатомия: из чего собран вброс

Если разложить, виден аккуратный конструктор из четырёх деталей:

🪝 Якорь правды — свежий реальный релиз Opus 4.8. Даёт инфоповод и доверие.

🎭 Выдуманный или раздутый «вызов» — обскурный проект, которому приписывают то, чего он не делает (а часто и не может).

🧱 Искажённый прецедент — реальная, но обрезанная до неузнаваемости история (DeepSeek), которая «доказывает», что такое уже бывало.

🎁 Выгодная развязка — «теперь производительность Opus можно получить бесплатно, с полным контролем». Цепляет желание читателя, отключает скепсис.

Плюс классический испорченный телефон: честный репозиторий → англоязычный хайп-пост → русскоязычный пересказ, на каждом шаге которого оговорки отваливаются, а заголовок становится жирнее. На выходе «учебный проект, который автор называет НЕ заменой LLM» превращается в «open-source обошёл Opus 4.8».

Чек-лист: как разоблачить такое за пять минут

Ничего экспертного не нужно — нужны браузер и привычка не верить заголовку:

🔎 Поиск-footprint. Если «проект, обошедший флагман» не находится нигде, кроме одного поста, — это не прорыв, а вброс. Настоящие результаты шумят.

📄 Первоисточник важнее пересказа. Откройте README / репозиторий / препринт. В большинстве случаев автор сам пишет, чего он НЕ заявляет (здесь — дословно «not a replacement for frontier LLMs»).

📊 С чем сравнивали. «Показал результаты выше» — выше чего? Тут бенчмарк шёл против собственного бейзлайна, а не против Opus. Всегда ищите ось сравнения.

🧩 Модель против обвязки.«Обошёл за 300 строк» = почти наверняка починили харнесс, а не модель. И цифры из разных харнессов несравнимы в лоб.

🧪 Воспроизводимость. Есть ли скрипт бенчмарка, условия, сид? Если «results» — это красивый скриншот без методики, это маркетинг, а не измерение.

📅 Возраст и тяга. Репозиторий создан вчера, ноль обсуждения — но «уже обходит Opus»? Несостыковка масштаба.

🚩 Триггерные слова. «Обошёл флагман» + «X строк кода» + «бесплатно / полный контроль» в одном абзаце — почти гарантированный паттерн хайпа.

Что в сухом остатке

Разрыв между открытым и проприетарным ИИ правда сокращается — но это длинная, нюансированная история про отдельные бенчмарки, харнессы и цену за токен, а не про мгновенных «убийц флагманов». И именно потому, что настоящий тренд реален, фейки на нём так хорошо паразитируют: они эксплуатируют то, во что мы и так готовы поверить.

Моё главное наблюдение из этой истории — не «в интернете врут» (это вы и так знаете), а то, что проверка стала почти бесплатной. Десять минут, raw.githubusercontent.com, один взгляд в README — и сенсация рассыпается. В эпоху, когда ленту всё плотнее забивает сгенерированный контент, этот навык дороже любого инсайда: не «знать ответ», а уметь за пять минут отделить реальный сигнал от красиво упакованного шума. Ставлю на то, что таких «убийц» будет всё больше, они будут всё глаже на вид — и тем ценнее привычка кликнуть на первоисточник прежде, чем нажать «репост».

А NexusCortex, если отбросить навешанное, — славный проект сам по себе: человек руками собирает SDR, тернарные веса и Thousand Brains, чтобы понять ИИ снизу. Он заслуживает честного разбора по существу, а не роли реквизита в чужой выдумке.

Источники

Что разбирали:

📰 Исходная новость (репост, Telegraph) — https://telegra.ph/NexusCortex-kak-otkrytyj-proekt-udelal-Claude-Opus-48-i-pochemu-ehto-tolko-nachalo-05-29

🧠 Сам проект NexusCortex (README, первоисточник опровержения) — https://github.com/office233/Nexuscortex

Чем проверял:

📚 Релиз Claude Opus 4.8 (даты, фичи, бенчмарки) — The New Stack — https://thenewstack.io/claude-opus-48-release/

📚 Официальный анонс Opus 4.8 — Anthropic — https://www.anthropic.com/news/claude-opus-4-8

📚 Гайд по Opus 4.8 для агентов (SWE-Bench Pro, fast-режим) — Verdent — https://www.verdent.ai/guides/claude-opus-4-8-coding-agents

📚 История DeepSeek V4 Pro / DeepClaude (Tier B → Tier A, харнесс vs модель) — AkitaOnRails — https://akitaonrails.com/en/2026/05/04/llm-benchmarks-deepseek-unlocked-deepclaude/

📚 Сравнение DeepSeek V4 и Opus 4.7 (BrowseComp 83.4% vs 79.3%) — DataCamp — https://www.datacamp.com/blog/deepseek-v4-vs-claude-opus-4-7

📚 О несравнимости кросс-харнессовых бенчмарков (Terminal-Bench, SWE-Bench Pro) — Verdent — https://www.verdent.ai/guides/deepseek-v4-vs-claude-opus-4-6-vs-gpt-5-5