Вскоре после того, как генеральный директор Amazon Andy Jassy объявил о крупной инвестиционной сделке AWS с OpenAI на $50 миллиардов [1], технологический гигант приоткрыл завесу тайны над своим главным аппаратным козырем. Мы получили эксклюзивный доступ в святая святых секретную лабораторию Annapurna Labs в Остине, где инженеры куют будущее облачной инфраструктуры. В центре внимания оказался Trainium собственный ИИ-чип Amazon, призванный радикально снизить стоимость нейросетевых вычислений и бросить серьезный вызов почти абсолютной монополии Nvidia. Подобные инновации становятся критически важными для всей индустрии, как уже было отмечено в статье ‘Ян ЛеКун привлек $1 млрд на ИИ, который будет понимать физический мир’ [1]. Генеральный директор Amazon, Энди Ясси, считает Trainium многомиллиардным бизнесом и одной из самых вдохновляющих технологий AWS, делая на него огромную ставку. Однако за красивыми фасадами скрывается главная интрига: реальность ли это? Вполне возможно, что громкие заявления CEO могут быть частью PR-кампании для привлечения инвесторов и клиентов, а не отражать текущую реальность масштабов бизнеса. Наш репортаж изнутри лаборатории поможет отделить маркетинговые обещания от настоящих инженерных достижений.
Масштаб амбиций: OpenAI, Anthropic и битва за вычислительные мощности
Партнерство Amazon с ключевыми игроками рынка ИИ - это не просто
декларация о намерениях, а многомиллиардные обязательства,
демонстрирующие истинный масштаб амбиций. В рамках знаковой сделки с OpenAI облачный гигант обязался предоставить OpenAI 2 гигаватта вычислительной мощности Trainium [2].
Это колоссальный объем, особенно если учесть, что другой лидер
индустрии, Anthropic, уже является одним из крупнейших потребителей
чипов Amazon. По данным компании, развернуто 1,4 миллиона чипов Trainium
всех трех поколений, и Claude от Anthropic работает на более чем 1
миллионе развернутых чипов Trainium2 [4], в частности, в рамках масштабного проекта Project Rainier.
Такие гигантские потребности в вычислительных ресурсах указывают на
фундаментальный сдвиг в приоритетах индустрии. Если несколько лет назад
основной задачей было обучение моделей, то сегодня многие задаются
вопросом, что такое инференс ИИ и почему он так важен. Инференс ИИ
— это процесс фактического запуска обученной модели искусственного
интеллекта для генерации ответов, прогнозов или выполнения других задач в
реальных условиях. В настоящее время он является ключевым узким местом
производительности в отрасли ИИ. Именно на этапе инференса модели,
подобные Claude или GPT, потребляют основную часть ресурсов, обслуживая
миллионы пользовательских запросов в реальном времени.
Amazon осознала этот тренд одной из первых, адаптировав свои чипы под
новые реалии. Изначально разработанный для ускорения обучения, чип Trainium2 для инференса был адаптирован и теперь эффективно справляется с этими задачами. Ярким примером служит собственный сервис Amazon Bedrock, где Trainium2
чипы обрабатывают большую часть трафика инференса. Это позволяет
корпоративным клиентам создавать ИИ-приложения на базе различных
моделей, доказывая производительность и надежность чипов в боевых
условиях.
Компетентность команды, стоящей за разработкой этих чипов, получила
признание даже от самых неожиданных игроков. В частности, команда
разработчиков чипов Amazon получила похвалу от Apple в 2024 году [3]
— редкий жест для компании, известной своей закрытостью. Этот факт лишь
подчеркивает, почему технологические гиганты готовы делать ставку на аппаратные решения Amazon в гонке за доминирование в сфере искусственного интеллекта.
Экосистема Amazon Trainium: Как Amazon строит альтернативу Nvidia
Амбиции Amazon выходят далеко за рамки создания отдельного чипа-конкурента. Компания выстраивает целостную, вертикально интегрированную экосистему,
чтобы бросить вызов доминированию Nvidia не только в
производительности, но и в стоимости владения. Этот комплексный подход,
охватывающий все уровни от кремния до программного обеспечения,
позволяет Amazon полностью контролировать производительность и затраты,
предлагая клиентам до 50% экономии на эксплуатации ИИ-инфраструктуры.
В основе этой экосистемы лежат новейшие 3-нанометровые чипы
Trainium3, размещенные в специально спроектированных серверах Trn3
UltraServers. Архитектура этих серверов является модульной, и ее
ключевым элементом выступают серверные sleds — специализированные лотки
или модули, разработанные Amazon для размещения ИИ-чипов Trainium,
CPU-чипов Graviton и других поддерживающих компонентов. Они являются ключевым элементом модульной
архитектуры серверов AWS, обеспечивая эффективное масштабирование и
обслуживание оборудования. Такая конструкция, дополненная инновационной
системой жидкостного охлаждения, позволяет эффективно управлять
тепловыделением и плотностью размещения компонентов.
Однако производительность отдельных чипов не имеет значения без эффективной связи между ними. Здесь в игру вступают Neuron switches для Trainium3
— это специализированные сетевые коммутаторы, разработанные AWS. Они
позволяют каждому чипу взаимодействовать с каждым другим чипом в
mesh-конфигурации, значительно снижая задержки и повышая общую
производительность системы. Этот элемент критически важен для масштабных
задач обучения и инференса, где скорость обмена данными между тысячами
ускорителей определяет итоговый результат.
Завершает картину продуманная программная поддержка и система
виртуализации Nitro. Понимая, что главным барьером для перехода с Nvidia
является ее программная экосистема CUDA, Amazon сделала ставку на максимальное упрощение миграции.
Поддержка популярного фреймворка PyTorch означает, что для адаптации
моделей, написанных для архитектуры Nvidia, разработчикам зачастую
требуется изменить всего одну строку кода. Этот шаг стратегически
снижает барьеры для перехода, делая экосистему Trainium доступной и
привлекательной для широкого круга разработчиков, стремящихся
оптимизировать свои затраты без потери производительности.
Магия ‘первого запуска’: Внутри лаборатории Annapurna Labs
Наша эксклюзивная экскурсия проходит в лаборатории Annapurna Labs
в Остине, где рождаются чипы Trainium и которая меньше всего похожа на
стерильное корпоративное пространство. Это удивительное сочетание
школьного кабинета труда, полного стеллажей с оборудованием, и
высокотехнологичной декорации из голливудского блокбастера, с панорамным
видом на город. Здесь инженеры в джинсах, а не в белых халатах, вершат
технологическую революцию.
Кульминацией их многомесячной работы становится ‘silicon bring-up’. Silicon bring-up — это критически важный этап
в разработке чипов, когда прототип нового чипа впервые активируется
после производства для проверки его работоспособности. Этот процесс
часто требует круглосуточной работы инженеров для выявления и устранения
любых проблем. По словам руководства, это событие напоминает большую
ночную вечеринку с пиццей, когда вся команда остается в лаборатории,
чтобы первой увидеть ‘новорожденный’ чип в действии.
Первый запуск Trainium3 не обошелся без драмы.
Радиатор охлаждения прототипа не подходил по размерам, что грозило
сорвать весь процесс. Недолго думая, инженеры схватили шлифовальную
машину и, чтобы не нарушать рабочую атмосферу шумом, уединились в
конференц-зале, чтобы подогнать деталь вручную. Эта история —
квинтэссенция духа Annapurna: самоотверженность, изобретательность и
готовность решать проблемы здесь и сейчас.
Атмосферу дополняют такие детали, как станция для ювелирной
микросварки, где специалисты работают с мельчайшими компонентами под
микроскопом. Но настоящие испытания чипы проходят в
собственном дата-центре неподалеку. Это суровое место: рев систем
охлаждения настолько оглушителен, что инженеры работают в берушах, а в
воздухе стоит запах раскаленного металла. Именно здесь, среди рядов
работающих серверов, становится очевиден не только технологический
прорыв, но и его цена. Несмотря на все усилия по внедрению жидкостного
охлаждения, масштабное развертывание ИИ-чипов и дата-центров увеличивает
потребление энергии и воды, ставя перед индустрией новые экологические
вызовы.
Обратная сторона медали: Риски, дебаты и скрытые издержки
Несмотря на впечатляющие перспективы и технологические прорывы в гонке Amazon Trainium против Nvidia,
стратегия Amazon с чипами Trainium не лишена серьезных рисков и
вызывает ряд острых вопросов у экспертов и участников рынка. Громкие
заявления о сокращении затрат на 50% по сравнению с решениями Nvidia,
безусловно, привлекают внимание, однако эта цифра может оказаться
идеализированной. Скептики указывают, что она вряд ли учитывает все
скрытые издержки, связанные с миграцией сложных моделей искусственного
интеллекта. Несмотря на заявленную простоту перехода благодаря поддержке
PyTorch, полная оптимизация производительности для специфических и
комплексных рабочих нагрузок может потребовать значительных усилий по
перепроектированию архитектуры, что нивелирует часть предполагаемой
экономии.
Ключевым фактором неопределенности становится
громкая сделка с OpenAI. Партнерство, которое должно было стать триумфом
AWS, рискует превратиться в источник юридических баталий. Microsoft уже
оспаривает эксклюзивность соглашения, ссылаясь на собственные
договоренности с создателями ChatGPT. Потенциальные судебные
разбирательства могут не только подорвать репутацию AWS, но и
существенно повлиять на объемы использования чипов Trainium со стороны
OpenAI, ставя под сомнение один из столпов стратегии Amazon. Это создает
атмосферу напряженности вокруг будущего сотрудничества, которое еще не
успело начаться.
Более того, амбиции Amazon сталкиваются с суровыми реалиями производственных
мощностей. Компания уже испытывает трудности с удовлетворением
колоссального спроса на Trainium со стороны текущих партнеров, включая
Anthropic. Нехватка чипов может серьезно ограничить способность AWS
подорвать доминирование Nvidia на рынке, превратившись из агрессивного
конкурента в нишевого игрока, неспособного обеспечить необходимый
масштаб. Уязвимость усугубляется критической зависимостью от одного
поставщика — тайваньской компании TSMC, которая производит передовые
3-нм чипы Trainium3. Любые сбои в цепочке поставок, вызванные
производственными проблемами или геополитической нестабильностью, могут
нанести сокрушительный удар по всей чиповой программе Amazon.
Три сценария будущего для ИИ-империи Amazon
Битва за доминирование в сфере ИИ-вычислений вступает в решающую
фазу, и чип Trainium — это не просто очередной продукт Amazon, а краеугольный камень долгосрочной
стратегии AWS по удержанию лидерства. Это ставка на собственную
экосистему, призванная изменить расстановку сил на рынке, где до сих пор
безраздельно властвовала Nvidia. Однако будущее этой амбициозной
инициативы не предопределено и может развиваться по одному из трех
ключевых сценариев.
В оптимистичном сценарии Amazon успешно масштабирует
производство, укрепляет партнерства с ведущими ИИ-компаниями, и
Trainium становится новым индустриальным стандартом, значительно снижая
зависимость от Nvidia. Нейтральный исход предполагает, что Trainium
продолжит расти, но столкнется с конкуренцией и производственными
ограничениями, заняв значительную, но не доминирующую долю рынка, в то
время как Nvidia сохранит лидерство в высокопроизводительных нишах.
Наконец, негативный сценарий не исключает, что юридические споры и
производственные проблемы замедлят развертывание Trainium, а
разработчики столкнутся с трудностями при миграции, позволив конкурентам
предложить более привлекательные альтернативы.
Какой из этих путей станет реальностью, покажет
время. Но уже сегодня очевидно одно: исход этой технологической гонки
определит не только рыночные доли гигантов, но и фундаментальные
параметры будущего искусственного интеллекта — его стоимость,
доступность и саму архитектуру на десятилетия вперед.