Почему гонка за параметрами и контекстом — тупик, а будущее за стаей маленьких, быстрых и энергоэффективных агентов. И как мой эксперимент с Nemotron это доказывает.
1. Я сидел с диспетчером задач и заметил странное
Вечер. Чай. Диспетчер задач. Логи LM Studio.
Моя модель — Nemotron 3 Nano 4B в квантизации Q8_0. Малышка на 4 миллиарда параметров. На ней я гонял OpenClaw, заставлял искать в интернете, писать код, анализировать книги.
И я заметил странную вещь.
Модель могла выдать огромную генерацию на 50K токенов и почти не тронуть память. Но когда я давал ей 10 маленьких задач по 5K токенов — память раздувалась как снежный ком.
Я провёл эксперимент. 15 задач подряд. 57-65 генераций. Контекст вырос до 521% от лимита. Модель начала «чудить»: падать скорость, появлялись странные паузы.
А потом я выгрузил модель из памяти и загрузил обратно.
Контекст сохранился. Знания остались. А память упала с 8.9 ГБ ОЗУ до 4.7 ГБ.
И меня осенило.
Мы зациклились на объёме. А надо думать об эффективности.
2. Миф о том, что «больше — значит лучше»
Посмотрите, что сейчас происходит в мире ИИ.
OpenAI, Google, Anthropic соревнуются, у кого больше параметров, длиннее контекст, мощнее дата-центр. GPT-5 обещает триллион параметров. Контекст в 2 миллиона токенов. А ценник на обучение — сотни миллионов долларов.
И что дальше?
Через 5 лет мы упрёмся в потолок. В физический. В энергетический. В экономический.
Охлаждение дата-центров уже сейчас требует рек. Электроэнергии не хватает. А следующий шаг — строить АЭС для одной модели?
Это не развитие. Это зависимость от «больше».
Альтернатива есть. И она лежит на поверхности. Буквально на моём столе.
3. Природа уже всё придумала за нас
За миллиарды лет эволюция решила ту же задачу. И ответ — эффективность, а не размер.
Динозавры были огромными. И вымерли. Млекопитающие были маленькими, но с более эффективным мозгом. И заняли их место.
Мозг человека потребляет ~20 ватт. Суперкомпьютер, который пытается эмулировать его работу, жрёт мегаватты.
Природа не создаёт гигантских универсальных солдат. Она создаёт рой специализированных агентов: нейроны, муравьи, клетки иммунной системы. Каждый делает своё дело, а вместе они создают разум и жизнь.
Почему в ИИ должно быть иначе?
4. Мой эксперимент — доказательство этой теории
Я уже тестирую такую архитектуру.
Мой OpenClaw — это не одна гигантская модель. Это рой маленьких агентов. Один ищет в интернете. Другой анализирует. Третий пишет код. Они вызывают друг друга по мере надобности.
Nemotron на 4B параметров — не динозавр. Это шустрый млекопитающий. Он жрёт 5-6 ГБ VRAM, выдаёт 50 токенов в секунду и делает то, для чего его обучили.
А моё открытие про сброс кэша и ограничение количества генераций — это, по сути, алгоритмическая эффективность, которой сейчас не хватает гигантам.
Маленькие модели могут сотрудничать. Их можно размножить на одном сервере. Они не требуют мегаватт и рек для охлаждения.
Рой умных муравьёв победит одного толстого динозавра.
5. Три направления, где будет решаться будущее
Я вижу три линии атаки. И они расположены по степени важности.
🥇 Первое и главное: Алгоритмы и архитектура
Это то, что я случайно открыл на своём уровне. И то, над чем уже работают другие умные люди:
- Mixture of Experts (MoE) — активация только части сети. Остальные спят и не жрут энергию.
- Линейное внимание (Mamba, RWKV) — вместо квадратичного. Скорость и память перестают зависеть от контекста катастрофически.
- Моя фишка — управление кэшем и числом генераций — показывает, что даже в текущих моделях есть скрытый ресурс эффективности.
Это даст рост в тысячи раз. Без этого никакие чипы не спасут.
🥈 Второе: Железо, оптимизированное под ИИ
Игровые видеокарты — это компромисс. Будущее за специализированными чипами:
- Аналоговые вычисления (IBM, Mythic) — работают на физических законах, а не на битах. Энергоэффективность на порядки выше.
- Фотонные процессоры (Lightmatter, Lightelligence) — используют свет вместо электричества. Скорость — скорость света, нагрев минимальный.
🥉 Третье: Обучение с подкреплением (Self-play / RL)
Самый ресурсоёмкий этап — обучение на всех данных интернета. Но настоящий скачок будет, когда модели станут учиться, взаимодействуя друг с другом и со средой (как AlphaGo, игравший сам с собой).
Это гораздо эффективнее простого перебора терабайтов текста.
6. Что это значит для вас (и для меня)
Мир ИИ скоро изменится. Не так, как обещают маркетологи OpenAI.
- ИИ станет дешёвым, быстрым и приватным. Вы сможете запустить своего агента на старом ноутбуке.
- Вы перестанете платить за токены и отдавать свои данные в облако.
- Монополия гигантов рухнет, потому что эффективность победит размер.
Я в это верю. И я уже строю такой мир: приватный мессенджер с ИИ-воркерами, узел оркестрации из старого ноутбука, рой агентов на OpenClaw.
7. Это не фантастика. Это инженерия.
Будущее не наступит само. Его нужно собирать.
Вы можете начать прямо сейчас. Поставьте LM Studio. Скачайте Qwen или Nemotron. Попробуйте дать модели задание, которое вы обычно отдаёте ChatGPT. Почувствуйте разницу.
А если хотите следить за тем, как я строю эффективный, распределённый и приватный ИИ — подписывайтесь на «Локальный мозг».
В следующих статьях: как настроить рой агентов OpenClaw, почему я перестал бояться маленьких моделей и какой сервер собрать для своего ИИ.
👉 ВК: https://vk.com/local_mozg
👉 Дзен: https://dzen.ru/lokal_mozg
Прохор
Инженер приватных AI-систем