59 подписчиков

Как инференс съедает $5 трлн: новая экономика дата-центров к 2030 году

СегодняСегодня

2 мин

К концу десятилетия глобальные инвестиции в дата-центры достигнут 6,7 трлн долларов, и 5,2 трлн из этой суммы пойдут на обслуживание ИИ-нагрузок. Для пользователей это означает быстрее работающие сервисы и повсеместные ИИ‑ассистенты. Для рынка — резкий рост капитальных затрат и борьбу за эффективность вычислений 💷. Инференс как главная статья расходов По оценкам McKinsey, до 90% всех вычислительных ресурсов за жизненный цикл модели приходится на инференс — генерацию ответов в реальном времени. Обучение модели дорого, но краткосрочно. Инференс — это постоянная нагрузка: каждый запрос пользователя запускает цепочку вычислений. Экономика здесь строится вокруг трех показателей: стоимость одного запроса, загрузка серверов и энергопотребление. При аудитории в сотни миллионов пользователей даже доли цента на запрос формируют миллиарды долларов годовых расходов ⚙️. Почему гиперскейлеры сохраняют маржинальность Крупные платформы, которые одновременно разрабатывают модели и владеют инфраст

Инференс как главная статья расходов

По оценкам McKinsey, до 90% всех вычислительных ресурсов за жизненный цикл модели приходится на инференс — генерацию ответов в реальном времени. Обучение модели дорого, но краткосрочно. Инференс — это постоянная нагрузка: каждый запрос пользователя запускает цепочку вычислений.

Экономика здесь строится вокруг трех показателей: стоимость одного запроса, загрузка серверов и энергопотребление. При аудитории в сотни миллионов пользователей даже доли цента на запрос формируют миллиарды долларов годовых расходов ⚙️.

Почему гиперскейлеры сохраняют маржинальность

Крупные платформы, которые одновременно разрабатывают модели и владеют инфраструктурой, контролируют всю цепочку создания стоимости — от чипа до интерфейса. Это снижает себестоимость и повышает управляемость нагрузки.

OpenAI и Anthropic сократили расходы за счет кэширования повторяющихся запросов и использования специализированных чипов. Google увеличил пропускную способность через интеллектуальную маршрутизацию трафика, перераспределяя нагрузку между дата-центрами. Яндекс ускорил генерацию ответов в шесть раз благодаря сжатию моделей и оптимизации памяти 📦.

Каждое из этих решений влияет на юнит-экономику — соотношение дохода с пользователя и затрат на его обслуживание. В условиях масштабирования именно она определяет устойчивость бизнеса.

Где скрыт главный риск

Рост спроса на ИИ-сервисы усиливает давление на энергетику и цепочки поставок оборудования. Производители графических процессоров и серверов получают долгосрочные заказы, а операторы дата-центров сталкиваются с дефицитом мощностей.

Если стоимость инференса не будет снижаться теми же темпами, что и растет спрос, часть сервисов окажется под давлением издержек. Это особенно чувствительно для компаний без собственной инфраструктуры 🛡.

Стратегия на ближайшие годы

Рынок движется к трем приоритетам:

🔢1️⃣ разработка более компактных моделей с сопоставимым качеством;

🔢4️⃣ внедрение специализированных ускорителей вместо универсальных решений;

🔢 оптимизация программной архитектуры и распределения трафика.

Инфраструктура становится ядром конкурентной стратегии. В эпоху генеративного ИИ побеждает не только тот, у кого точнее модель, но и тот, кто дешевле и быстрее обрабатывает каждый запрос 🌐.

Как там с деньгами?

Подпишитесь на канал