647 подписчиков

OpenAI переходит с NVIDIA на тензорные процессоры Google

4 июля 20254 июл 2025

2 мин

OpenAI расширяет свою инфраструктуру GPU-решений за счёт аренды TPU (Tensor Processing Units) у Google Cloud, снижая зависимость от NVIDIA и диверсифицируя «облачные» мощности для задач инференса моделей. С момента запуска ChatGPT в конце 2022 года OpenAI стремительно росла, что вызвало нарастающий дефицит вычислительных ресурсов. До этого компания в основном опиралась на GPU NVIDIA, размещённые в дата-центрах Microsoft Azure по эксклюзивному соглашению (2019 — январь 2025) и на договоры с CoreWeave. Однако непрерывные запросы на инференс (работу уже обученных моделей) обходятся дороже, чем периодическое обучение моделей. Поэтому OpenAI искала более выгодные по стоимости решения и начала тестировать TPU Google v6e («Trillium») для задач инференса ChatGPT и других продуктов. TPU (Tensor Processing Unit) — специализированные чипы, созданные Google для ускорения операций с тензорами, которые лежат в основе нейросетей. В отличие от универсальных GPU, TPU заточены под матричные вычисления,

Оглавление

Контекст и предпосылки
Детали партнерства с Google
Мотивация и стратегическая значимость

Контекст и предпосылки

С момента запуска ChatGPT в конце 2022 года OpenAI стремительно росла, что вызвало нарастающий дефицит вычислительных ресурсов. До этого компания в основном опиралась на GPU NVIDIA, размещённые в дата-центрах Microsoft Azure по эксклюзивному соглашению (2019 — январь 2025) и на договоры с CoreWeave.

Однако непрерывные запросы на инференс (работу уже обученных моделей) обходятся дороже, чем периодическое обучение моделей. Поэтому OpenAI искала более выгодные по стоимости решения и начала тестировать TPU Google v6e («Trillium») для задач инференса ChatGPT и других продуктов.

Детали партнерства с Google

Соглашение с Google Cloud было заключено в мае 2025 года и касается именно инфраструктуры для инференса: OpenAI арендует TPU v6e, оптимизированные для низкой латентности и высокой пропускной способности при постоянных нагрузках, что позволяет экономить на стоимости запроса без существенных потерь в производительности.
Google ограничил доступ к самым современным TPU, сохранив их преимущество для собственных задач, но предоставил старшие версии TPU клиентам, включая Apple, Anthropic и теперь OpenAI.
При этом OpenAI продолжает использовать GPU NVIDIA (включая новые архитектуры Blackwell) и CPU AMD для обучения моделей и части инференса, а также сохраняет партнёрство с Microsoft Azure и CoreWeave для других типов вычислений.

Мотивация и стратегическая значимость

Снижение затрат: по оценкам, издержки на вычислительные ресурсы составляли 55–60% операционных расходов OpenAI в 2024 году и могут превысить 80% в 2025.
Аренда TPU Google позволяет существенно экономить при задачах инференса.
Диверсификация рисков: отказ от полной зависимости от NVIDIA и одного облачного провайдера (Microsoft) защищает OpenAI от дефицита GPU и потенциальных сбоев в поставках.
Гибкость инфраструктуры: мультicloud-стратегия (Azure + Google Cloud + CoreWeave + Oracle) обеспечивает масштабируемость и устойчивость сервисов OpenAI при пиковых нагрузках.

TPU (Tensor Processing Unit) — специализированные чипы, созданные Google для ускорения операций с тензорами, которые лежат в основе нейросетей. В отличие от универсальных GPU, TPU заточены под матричные вычисления, что делает их особенно эффективными для обучения и инференса больших языковых моделей.

Последствия для рынка

Конкуренция облачных провайдеров. Google укрепляет позиции в сегменте AI-облака, привлекая и соперничающие ИИ-стартапы.
Давление на NVIDIA. Появление альтернативных чипов снижает «налог NVIDIA» для крупных потребителей вычислительных мощностей и стимулирует инновации и ценовую конкуренцию на рынке ускорителей.
Мультиклауд-стратегии. Пример OpenAI вдохновляет другие ИИ-компании диверсифицировать поставщиков оборудования, чтобы обеспечить бесперебойность и эффективность операций.

Таким образом, переход OpenAI к TPU Google означает не смену основного вендора, а стратегическое расширение инфраструктуры для оптимизации затрат и повышения отказоустойчивости при масштабном инференсе моделей.

Ваше мнение важно!

Поделитесь своими комментариями, ставьте лайки и подписывайтесь на наш журнал, чтобы не пропустить новые статьи о развитии технологий и искусственного интеллекта!