116 подписчиков

OpenAI идёт за чипами и деньгами в Азию и на Ближний Восток: как охота за вычислениями меняет правила игры для всех

6 октября 20256 окт 2025

7 мин

Представьте ночной аэродром: трап, чемодан без наклеек, и в расписании — только названия фабрик и дата-центров. Смена поясов — не ради презентаций, а ради того, чего не хватает всем: вычислений. Новый ИИ-мир упёрся не в алгоритмы, а в металл, кремний и память. OpenAI открыто охотится за чипами и капиталом в Азии и на Ближнем Востоке — и это не просто «поездка по инвесторам», а сигнал, что следующий год решится на стороне инфраструктуры. Пара последних лет показала простую истину: спрос на генеративный ИИ растёт быстрее, чем индустрия успевает строить фабрики и разводить мощность в гигаваттах. Уплотнился весь стек — от литографии и продвинутой упаковки до дефицитной HBM-памяти (high-bandwidth memory — высокоскоростная память). В этот момент «побеждает» не тот, у кого самый красивый демо-ролик, а тот, кто может гарантировать поставки ускорителей и памяти по графику и цене. Отсюда логика: переговоры с азиатскими производителями чипов и памяти, параллельно — поиск капитала в фондах Ближнег

Оглавление

Контекст и таймлайн: когда идеи упёрлись в железо
Что именно происходит

Контекст и таймлайн: когда идеи упёрлись в железо

Пара последних лет показала простую истину: спрос на генеративный ИИ растёт быстрее, чем индустрия успевает строить фабрики и разводить мощность в гигаваттах. Уплотнился весь стек — от литографии и продвинутой упаковки до дефицитной HBM-памяти (high-bandwidth memory — высокоскоростная память). В этот момент «побеждает» не тот, у кого самый красивый демо-ролик, а тот, кто может гарантировать поставки ускорителей и памяти по графику и цене. Отсюда логика: переговоры с азиатскими производителями чипов и памяти, параллельно — поиск капитала в фондах Ближнего Востока под новые дата-центры и фабрики. На кону — возможность масштабировать модели и сервисы быстрее конкурентов.

Что именно происходит

Во-первых, ставка на источники вычислений. В центре карты — контрактные производители топологий и продвинутая упаковка (когда кристалл и HBM-память соединяются на одном «сэндвиче»). Без этого узкого горлышка никакие новые ускорители просто не родятся.

Во-вторых, прямые переговоры с производителями памяти. Сегодня бутылочное горлышко генеративного ИИ — не только «сырые терафлопсы», а пропускная способность и объём HBM. Модели становятся длиннее, мультимодальнее, память — решающий ресурс. Отсюда визиты к лидерам HBM и попытка «застолбить» 2026–2027 годы.

В-третьих, длинные деньги под дата-центры. Современные «ИИ-фермы» считаются не в серверах, а в мегаваттах и гигаваттах, с многолетними контрактами на электроэнергию и водой для охлаждения. Без партнёров с длинным горизонтом капитала масштаб не полетит — даже если чипы найдутся.

В-четвёртых, диверсификация. Один вендор и один регион — уже риск. Сразу несколько направлений (память, ускорители, упаковка, энергетика) и несколько регионов — способ защититься от сбоя в любом звене цепочки.

В-пятых, приоритизация «физики» продукта. Если год назад обсуждали архитектуры и датасеты, сейчас «первый класс» получают команды, умеющие экономить память и полосу: грамотная нарезка контекста, компиляция графов, гибридные пайплайны, кеш-стратегии на уровне продукта.

Почему это важно не только для Big Tech (пользователи, бизнес, рынок)

Для пользователей это означает банальное, но ключевое: скорость и цена. Если у платформы есть чипы — у вас будет видео-генерация без очередей, ассистент не «заикается» на длинных файлах, а цена подписки не скачет каждый квартал.

Для бизнеса это планирование без сюрпризов. Реклама, поддержка, генерация видео, анализ звонков — все эти процессы теперь завязаны на «управление вычислениями». Компания с доступом к ускорителям выдерживает SLA, а её продукт не тормозит в пиковый сезон.

Для рынка это смена логики конкуренции. Выигрывает не только тот, кто «умеет в модель», а тот, кто умеет в поставки: бронь HBM на годы вперёд, очередь на продвинутую упаковку, контракты на энергию и воду, геораспределение дата-центров.

Как устроено

Память решает. Высокоскоростная HBM — как турбина: она дороже обычной DRAM, но способна «кормить» модель данными без узких мест. Чем длиннее и мультимодальнее запрос, тем сильнее вы упираетесь в пропускную способность и объём.

Упаковка — это производство, а не «клей». Современный ускоритель — это кристалл + несколько башен HBM, соединённых специальной подложкой. Узел сложный, производственные линии ограничены, и очередь на них растягивается на кварталы.

Энергия — новый бюджет. Гигаватты, подстанции, трассы охлаждения, вода — всё это делается заранее. Если площадка не готова — хоть тысячу ускорителей привези, они будут «пылиться».

Капитал — это «бензин». Без длинных денег на площадки, энергию и логистику не взлетит даже лучший технический план. Именно поэтому внимание к фондам с горизонтом в годы, а не кварталы.

Примеры из жизни: как это уже влияет на продукты и людей

Кейс 1. Студия коротких вертикалок. Команда делает 30/60/90-секундные ролики под 9:16. Когда вычислений мало, от рендера до релиза — минуты. Как только слот вычислений схлопывается, монтаж превращается в лотерею: «встал в очередь — жди». Решение — бронировать окна генерации заранее и держать два провайдера на случай пиковой нагрузки.

Кейс 2. Техподдержка с «умным» разбором звонков. Компания запускает распознавание речи и суммаризацию с последующей генерацией ответа. В периоды пиков (акции, сезон) модель «задыхается» на длинных диалогах. Выход — агрессивное кеширование типовых фрагментов, резка контекста, частичный переход на офлайн-препроцессинг, а также резервирование вычислений на вечер/ночь под обучение и тонкую настройку.

Кейс 3. Средний SaaS с ИИ-ассистентом. Старт шёл бодро, пока не «съехала» цена инференса из-за дефицита памяти у облачного провайдера. Команда выжила за счёт трёх вещей: переключилась на смешанные прецизии и компактные режимы модели, внедрила MoE-архитектуру (mixture-of-experts — смесь экспертов) с маршрутизацией токенов, и проложила аварийный маршрут в другом регионе. Да, сложнее — но затраты упали на десятки процентов, а латентность стабилизировалась.

Что делать конкретно: гайд без воды для продактов, инженеров и маркетологов

Планируйте вычисления как фичу. Ровно так же, как планируете релизы и маркетинг, планируйте «окна» на генерацию и обучение. Для видео — расписание сцен по слотам; для речи — ночные окна на тонкую настройку; для ассистентов — профиль лимитов на пользователя.

Играйте в «память-первую» архитектуру. Длинные промпты и бесконечные вложения — роскошь. Вырезайте дубликаты, выносите «факты» в RAG (retrieval-augmented generation — генерация с доступом к базе знаний), используйте сжатие контекстов и кеширование промежуточных артефактов (расшифровок, эмбеддингов, титров).

Разнесите риски по провайдерам и регионам. Один контракт — одна точка отказа. Держите минимум два канала вычислений: например, «быстрый» для продакшна и «эконом» для длинных задач; держите соседний регион с прогретыми артефактами.

Считайте деньги «на токен» и «на минуту видео». Не только «в месяц». Для текста — стоимость токена ввода/вывода, для видео — стоимость секунды рендера в нужном разрешении. Тогда любая фича имеет цену и окупаемость.

Режьте латентность продуктом, а не только железом. Оффлоад на клиент, потоковая выдача, частичный рендер первой трети ролика, пока считается хвост — все эти «трюки» ничем не хуже «купить ещё 1000 ускорителей».

Готовьте альтернативы на случай «штормов». Дешёвые «споты» и прерываемые машины — норм, если архитектура терпит. Научитесь переживать прерывания: чекпойнты, быстрый перезапуск, декомпозиция задач.

Риски и как их обойти

Фрагментация стеков. Чем сложнее цепочка поставок, тем больше соблазн «запереться» в одном вендоре. Это удобно, пока всё работает. Как только любой элемент даёт сбой — вы заложник. Лечится: переносимость пайплайна, абстракции поверх SDK, минимум «жёстких» зависимостей.

Зависимость от «дорогой памяти». HBM — сердце ускорителя, и оно самое дорогое. Ошибка в проектировании контекста и кеша — это просто сжигание бюджета. Лечится: трекинг «память-на-запрос», профилирование промптов, агрессивная нормализация входов.

Энергетические «узкие места». Даже при чипах и памяти можно «упереться» в мегаватты. В продуктах это лечится гибридными сценариями: например, тяжёлые эффект-шоты считаются ночью, а днём — лёгкий интерактив с прокси-кадрами.

Команда «сломается» об сложность. Оркестровка, кеши, маршрутизация — всё это добавляет когнитивную нагрузку. Нужны продуктовые SLO: латентность, стоимость ответа, «мягкое» ухудшение качества при дефиците ресурсов. Тогда у команды есть ясный приоритет.

Что дальше

В ближайшие 6–9 месяцев рынок закрепит «вычисления как продукт»: у крупных платформ появятся публичные графики доступности чипов, слоты под рендер и прозрачные прайс-листы «за секунду видео» и «за миллион токенов контекста». Компании, которые заранее застолбили память и упаковку, начнут «пожинать»: стабильные цены, предсказуемые релизы, лучшая маржинальность.

Через 12–18 месяцев на сцену выйдет следующая волна HBM и упаковки — это даст шанс нагнать тем, кто сегодня не успел. Мы увидим больше гибридных моделей (смеси экспертов), меньше «монолитов» и больше «сквозных» пайплайнов, где поиск, речь, видео и действия сливаются в один поток.

К 24 месяцам пользователи перестанут думать о «мощности» — как мы не думаем про частоту процессора в телефоне. Побеждать будут те, кто превратит мощность в ощущение: мгновенный старт рендера, шов между сценами без «скрипа», ассистент, который не забывает начало разговора. Это и есть настоящий пользовательский эффект от сегодняшней охоты за чипами и деньгами.

Если вы делаете продукты на ИИ, сегодня — идеальный момент перестроить мышление. Включите вычисления в роад-мап, считайте не «в месяц», а «на запрос», вытаскивайте стоимость из памяти и латентности, а не только из маркетинга. И главное — перестаньте ждать «идеальных условий»: выигрывают те, кто умеет работать с тем, что есть, и готовится к тому, что будет. А если вам нужен конкретный пайплайн под видео 9:16, ассистента для саппорта или экономный режим инференса — приходите в ELEKTRA. Разложим задачу на шаги, соберём процесс под ваши реалии и будем расти быстрее тех, кто ещё ищет «идеальные чипы».