Экономика ИИ‑инференса: энергопотребление растет, стоимость развёртывания тормозит внедрение, а «тяжёлые» модели остаются привязанными к облакам гиперскейлеров. На этом фоне испанская Multiverse Computing, известная работами на стыке квантового софта и классического МО, заявила о прорыве: технология CompactifAI, по данным компании, уменьшает размеры LLM до 95% без ухудшения качества, ускоряет инференс в 4–12 раз и снижает его стоимость на 50–80%. Для масштабирования этого подхода стартап привлёк €189 млн ($215 млн) в раунде Series B при поддержке Bullhound Capital, HP Tech Ventures, Toshiba и других инвесторов. Разбираем, что именно обещает CompactifAI и насколько это способно перезапустить рынок.
Кто такие Multiverse и почему их слышно
Multiverse Computing позиционирует себя как одного из европейских лидеров в области квантового и квант‑инспирированного ИИ, делая акцент на практических приложениях и оптимизации сложных задач. На официальном сайте компания подчёркивает амбиции крупнейшего поставщика квантового ПО в Европе и регулярные инициативы в смежных технологических направлениях, от биотеха до индустриальных проектов. Такой профиль частично объясняет, откуда мог появиться «нестандартный» взгляд на сжатие моделей — из арсенала алгоритмов и эвристик, пришедших из квантовых методов и теории оптимизации.
Важно: по данным нескольких отраслевых публикаций и пресс‑релизов, именно этот технологический стек стал основой для CompactifAI — «компрессора» ИИ‑моделей, который компания выносит на рынок как ключевой продукт роста.
Что заявлено: цифры и обещания CompactifAI
В свежих материалах говорится о нескольких эффектах, достигаемых CompactifAI:
- Сокращение размера LLM до 95% при сохранении точности исходной модели.
- Ускорение инференса в 4–12 раз.
- Снижение стоимости инференса на 50–80%.
- Работа как в облаках и приватных ЦОД, так и на устройствах — «ультра‑сжатые» модели могут исполняться на ПК, смартфонах, автомобилях, дронах и даже Raspberry Pi.
- Целевая трансформация рынка инференса, оцениваемого в $106 млрд.
Эти формулировки звучат агрессивно для любого, кто знаком с ограничениями классических подходов — квантизации и прунинга — где компромисс «качество против скорости/размера» обычно ощутим. В компании подчёркивают, что традиционные методы часто ухудшают метрики модели, тогда как CompactifAI «сохраняет исходную точность» при кратном сжатии. В публичных материалах не раскрываются все технические детали, но многократно повторяется тезис о «новом подходе» и квант‑инспирированном происхождении метода.
Почему это важно: экономика, энергия, суверенность
Если заявленные параметры подтвердятся в широком применении, последствия для экосистемы ИИ будут значимыми:
- Снижение TCO инфраструктуры. При 50–80% экономии на инференсе и 4–12‑кратном ускорении меняются бюджеты не только для hyperscale‑облаков, но и для корпоративных ЦОД.
- Энергоэффективность. Меньший объём вычислений и памяти — меньше электричества на запрос, что критично для растущей нагрузки ИИ в дата‑центрах.
- Edge‑ИИ без компромиссов. Возможность запускать «серьёзные» LLM на граничных устройствах — это шаг к автономии и приватности данных на местах: в транспорте, промышленности, медтехе.
- Технологический суверенитет. Доступность инференса вне «облаков по умолчанию» расширяет палитру архитектурных решений и снижает зависимость от дефицитных ускорителей.
С нашей точки зрения, здесь главный сдвиг — не просто удешевление, а перераспределение вычислительной «гравитации»: от центра к краю сети. Если LLM приобретает «портативность», меняется сам паттерн внедрения — от call‑центров до бортовых систем автомобилей.
Деньги и амбиции: кто поверил и что дальше
Раунд на €189 млн ($215 млн) возглавил Bullhound Capital при участии HP Tech Ventures, Forgepoint Capital, Quantonation, Toshiba и других фондов. Для ниши софта с квант‑инспирированными методами это немалый сигнал: инвесторы делают ставку не на фундаментальные квантовые машины, а на практический «мост» между сегодняшней инфраструктурой и алгоритмами из квантового мира.
В отраслевых заметках подчёркивается, что компания провела 2024 год в разработке и первичных внедрениях CompactifAI, а новый раунд нужен для агрессивного масштабирования — от продуктовой упаковки и API до работы с экосистемой партнёров. На сайте Multiverse Computing видна коммуникация о «крупнейшем поставщике квантового ПО в Европе» и наборе в команду, что логично для стадии роста.
Где могут быть границы: вопросы к проверке
Тезисы о «95% без потери качества» и «4–12× быстрее» требуют аккуратной верификации на бенчмарках и реальных нагрузках. На что стоит смотреть бизнесу и разработчикам при оценке таких предложений:
- Наборы метрик и датасеты. Важно, какие именно метрики качества сохраняются — от MMLU и GSM8K до мультиязычных и доменных тестов, и какова деградация при сильном уменьшении параметров.
- Совместимость и переносимость. На каких архитектурах и фреймворках поддерживается CompactifAI, какова зависимость от конкретных ускорителей и драйверов.
- Цена интеграции. Как быстро встраивается в существующие пайплайны MLOps, как решаются вопросы лицензирования и поддержки.
- Устойчивость к дрейфу и обновлениям. Что происходит с качеством после доменной дообучаемости, как обеспечивается обновляемость без «раздутия» модели.
Пока в публичном поле преобладают релизные заявления и сообщения инвесторов, поэтому ключ к принятию — пилоты на собственных данных и сравнения «в лоб» с сильными базовыми линиями квантизации/прунинга.
Что это меняет на практике: сценарии и отрасли
Если взять за рабочую гипотезу, что заявленные выигрыши достижимы, появляются новые классы приложений:
- Потребительские устройства. Ассистенты на смартфонах и ПК с локальным инференсом без постоянного обращения в облако.
- Автомобильная промышленность. Мультимодальные LLM‑агенты в бортовых системах, где задержка и приватность критичны.
- Промышленность и транспорт. Диагностика, предиктивное обслуживание и интерфейсы операторов прямо на краю сети.
- Дроны и робототехника. Реактивные агенты с языковыми и зрительными возможностями без «радиозависимости» от дата‑центров.
- Финансы и гос‑сектор. Приватные ЦОД с экономной инференс‑стоимостью, что упрощает соблюдение норм и снижение рисков.
В каждом сценарии решается известная «тройка» ограничений: пропускная способность канала, задержка, стоимость. Сжатие до компактных, энергоэффективных исполнений меняет баланс сразу по всем трём осям.
Контекст рынка: почему окно возможностей открыто сейчас
Факторы, делающие окно возможностей «широким» именно сегодня:
- Дефицит топовых ускорителей и растущие очереди в облаках — сдерживают масштабирование ИИ‑продуктов.
- Рост стоимости электроэнергии и экологическое давление на дата‑центры — увеличивают значимость энергоэффективности.
- Созревание прикладных LLM‑кейсов в бизнесе — повышает ценность TCO‑оптимизаций, особенно на инференсе.
- Развитие edge‑железа — даёт платформы, где «ультра‑сжатые» модели становятся практичны.
Multiverse Computing попадает в эту волну с предложением, которое обещает экономию «здесь и сейчас», не дожидаясь массовых квантовых компьютеров.
Что мы советуем предприятиям и разработчикам
С точки зрения редакции «ОК», стратегически разумно:
- Запустить пилот на 1–2 приоритетных сценариях с чёткими метриками качества/задержки/стоимости — и «эталоном» в виде лучших практик квантизации и прунинга для исходной модели.
- Проверить мульти‑платформенность: облако, приватный ЦОД, одно‑два edge‑устройства из целевых.
- Оценить юридические и комплаенс‑аспекты при переносе инференса на край — локальность данных, логирование, управление секретами.
- Встроить результаты пилота в дорожную карту ИИ‑инфраструктуры на 12–18 месяцев, с учётом динамики рынка ускорителей и стоимости энергии.
Сигнал от инвесторов и партнёров внушает доверие, но в ИИ‑инженерии «магии» не бывает — решают воспроизводимые метрики и эксплуатационные издержки. Именно это и должно стать критерием.
Что дальше
Мы продолжим наблюдать за развитием CompactifAI, публичными бенчмарками и кейсами внедрения. Если технология действительно удерживает качество при 95% сокращении и приносит 4–12× ускорение в бою, это станет одним из главных шагов к «повсеместному» ИИ, который работает не только в облаке, но и рядом с пользователем. В противном случае рынок получит ещё один урок о сложности компрессии без потерь — и набор ценных инженерных находок для будущих подходов.
Хотелось бы услышать и ваш опыт. Пробовались ли в проектах «ультра‑сжатые» LLM? Какие метрики и ловушки всплывали? Пишите в комментариях — поделимся своими наблюдениями из прошлых материалов и постараемся подсказать по архитектуре пилота.