11,1 тыс подписчиков

🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса

1 декабря 20251 дек 2025

1 мин

🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса. - TPUs дают примерно в 4 раза лучшую стоимость за производительность по сравнению с Nvidia GPU в задачах инференса - Инференс за время жизни модели стоит в 15 раз дороже, чем её обучение - К 2030 году инференс будет потреблять около 75 процентов всего AI compute (рынок на 255 млрд долларов) Основная мысль проста: инференс полностью доминирует итоговую стоимость эксплуатации модели. Обучение модели уровня GPT-4 стоит примерно 150 миллионов долларов, но поддержание инференса - около 2.3 миллиарда долларов в год. Nvidia H100 отлично подходит для гибкого обучения, но их универсальная архитектура добавляет лишнюю логику управления и движение данных, что увеличивает энергопотребление при простых forward-pass операциях — поэтому длительный инференс обходится дорого. Google TPU - специализированные чипы для tensor math, построенные на систолических массивах и агрессивной инженерии энерг

🧮 Интересная и подробная статья о том, почему TPU становятся ключевым фактором в удешевлении инференса.

- TPUs дают примерно в 4 раза лучшую стоимость за производительность по сравнению с Nvidia GPU в задачах инференса

- Инференс за время жизни модели стоит в 15 раз дороже, чем её обучение

- К 2030 году инференс будет потреблять около 75 процентов всего AI compute (рынок на 255 млрд долларов)

Основная мысль проста: инференс полностью доминирует итоговую стоимость эксплуатации модели. Обучение модели уровня GPT-4 стоит примерно 150 миллионов долларов, но поддержание инференса - около 2.3 миллиарда долларов в год.

Nvidia H100 отлично подходит для гибкого обучения, но их универсальная архитектура добавляет лишнюю логику управления и движение данных, что увеличивает энергопотребление при простых forward-pass операциях — поэтому длительный инференс обходится дорого.

Google TPU - специализированные чипы для tensor math, построенные на систолических массивах и агрессивной инженерии энергопотребления. В итоге они потребляют примерно на 60-65 процентов меньше энергии и дают около четырёхкратного выигрыша по стоимости инференса трансформеров по сравнению с H100.

Практика это подтверждает:

Midjourney снизил затраты на инференс примерно на 65 процентов после перехода на TPU.

Anthropic закупает до миллиона TPU.

Meta, Salesforce, Cohere и многие другие также переводят всё больше трафика на TPU-поды, поскольку инференс стремительно растёт и к 2030 году станет около 75 процентов всех вычислений в AI.

ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025

Гаджеты и электроника

5,73 млн интересуются