Найти в Дзене
ПрилоЖенечка

Глобальный сбой в Amazon Web Services (AWS). Виноват ли ИИ?

Оглавление

💥😱💥

20 октября 2025 произошёл один из самых масштабных сбоев в истории Amazon Web Services (AWS) и он затронул не только AWS, но и кучу сервисов по всему миру, включая OpenAI (ChatGPT) и Anthropic (Claude).

🔎 В чём была проблема?

Всё началось с ошибки в техническом обновлении API сервиса DynamoDB — это ключевой облачный NoSQL-базовый сервис AWS, который используется миллионами приложений для хранения и обработки данных. Обновление пошло не так и вызвало сбой в DNS-резолюции (Domain Name System): системы не могли правильно преобразовать доменные имена в IP-адреса для API DynamoDB. В итоге запросы "застревали" — приложения не могли подключиться к базе данных, что привело к каскадному эффекту. То есть один сервис падал и тянул за собой другие.

Проблема возникла в регионе US-EAST-1 (Вирджиния, США) — это самый старый и крупнейший дата-центр AWS, на который приходится огромная часть глобального трафика. Многие сервисы по умолчанию используют его как "домашний" хаб.

Никаких признаков внешней атаки или сетевых проблем не было. Это чисто внутренняя ошибка в инфраструктуре AWS. Аналитики из ThousandEyes отметили, что деградация была вызвана таймаутами запросов и ошибками на бэкенде, без каких-либо сетевых инцидентов.

⌚ События по порядку

🔹 Примерно в 07:11 (по Гринвичу) AWS фиксирует "повышенные ошибки и задержки" в DynamoDB и связанных сервисах. Пользователи по всему миру начинают жаловаться на сбои — от невозможности войти в аккаунты до полной недоступности сайтов.

🔹 Около 07:26 AWS идентифицирует корень проблемы (DNS-резолюция) и начинает расследование. Инженеры немедленно подключаются и запускают несколько параллельных путей восстановления.

🔹 В районе 09:22 начинается частичное восстановление и сервисы постепенно оживают.

🔹 В 09:35 проблема полностью устранена в US-EAST-1.

🔹 В 10:11 AWS объявляет, что все 113 затронутых сервиса вернулись в норму, но остаётся очередь необработанных сообщений (backlog), которая обрабатывалась ещё несколько часов. Некоторые приложения типа ChatGPT и ESPN "висели" дольше из-за цепной реакции.

Весь инцидент длился около 3 часов в пике, но восстановление растянулось на полдня.

😵 Последствия сбоя

Затронуто 113 сервисов AWS напрямую, но косвенно — миллиарды пользователей. То есть встало пол-интернета. 😱

Ключевые жертвы:

📞 Коммуникации: Slack, WhatsApp, Signal, Zoom — чаты и звонки сбоили.

🧩 Игры и развлечения: Roblox, Fortnite, Snapchat, Apple TV, ESPN, Apple Music, Pinterest, The New York Times.

💳 Финансы и шопинг: Venmo, Etsy, Coinbase, Starbucks, банки.

💼 Другое: Duolingo, Canva, авиакомпании (Delta, United), смарт-устройства (Ring, Alexa, Kindle), даже сайт Amazon.

🤖 ИИ-сфера: Perplexity, OpenAI (ChatGPT недоступен), Anthropic (Claude оффлайн). Данная ситуация показала, насколько ИИ зависимы от облаков.

Downdetector зафиксировал пики жалоб — более 50 тысяч в час.

Экономический урон оценивают в сотни миллионов долларов — от упущенной прибыли до штрафов за SLA (гарантия качества услуг).

👂 Слухи о связи сбоя с ИИ

По официальной версии корень проблемы — подсистема мониторинга здоровья сетевых балансировщиков трафика внутри EC2 (Elastic Compute Cloud). Эта штука должна следить, чтобы трафик не заваливался. Но что-то пошло не так, она "застряла" на DNS-резолюции для API DynamoDB (базы данных), и... Ну дальше вы и сами уже знаете — каскад на всё, что зависит от US-EAST-1 (главного хаба в Вирджинии) и пол-интернета застопорилось.

Всё это похоже на рецидив старых бед. US-EAST-1 уже два раза устраивал апокалипсисы — один в 2020, другой в 2021. И вот в 2025 уже третий подъехал. 😅

Однако по сети гуляет предположение, будто в масштабном сбое виноваты роботы, так как Amazon уволил значительную часть спецов и заменил их на ИИ, а последний, якобы, просто не справился со своими задачами. Но так ли это на самом деле или кто-то ищет в ИИ козла отпущения? 🤔

💼 Увольнения в Amazon

Amazon действительно сильно режет штат в 2025-м. После 27 тысяч уволенных в 2022–2024 годах, это уже третья волна увольнений.

В октябре анонсировали до 15% сокращений в HR, плюс менеджмент и другие отделы вроде коммуникаций и устойчивого развития. В AWS летом уволили сотни в ИИ, аналитике, маркетинге и обучении.

CEO Энди Джесси прямо сказал в июне, что ИИ поможет "сократить корпоративный трудовой ресурс" за счёт автоматизации задач. Типа, меньше менеджеров, больше ботов для рутины. Есть реальное ощущение, что в компании ИИ заменяет людей. Но официально Amazon отмазывается, мол "это для эффективности, а не чисто замена на роботов". Плюс, они нанимают 250 тысяч сезонных работников на склады к праздникам. Так что не все теряют работу, кто-то и находит... Правда на времечко... 😏

🤖 Сбой AWS — вина ИИ?

Тут однозначного мнения нет. Один отчёт, опубликованный аккурат перед 20 октября, утверждает, что Amazon якобы заменил 40% DevOps-команды в AWS на ИИ всего за несколько дней до сбоя.

А критики вроде Кори Куинна с сайта The Register говорят, что утечка мозгов от увольнений наконец дала о себе знать. Типа потеряли "племенной опыт", то есть тех, кто помнит старые DNS-баги, и вот что в итоге вышло.

Но сама AWS официально не упоминает ИИ как причину сбоя. То же самое говорят и аналитики из Reuters и ThousandEyes — каскад от DNS-резолюции, а не от ИИ, который сломал интернет.

В общем ИИ в Amazon действительно "помогает" сокращать штат, и это могло подкосить стабильность, но пост-мортем, опубликованный недавно, это не подтверждает.

📄 Пост-мортем

Пост-мортем уже провели и опубликовали на официальном сайте AWS в разделе "Post-Event Summaries" 23 октября. Его назвали "Summary of the Amazon DynamoDB Service Disruption in Northern Virginia (US-EAST-1) Region".

В целом, анализ подтверждает изначальные предположения. Причиной сбоя оказался скрытый дефект в подсистеме мониторинга здоровья сетевых балансировщиков трафика внутри EC2. Этот дефект затаился давно и вылез в неподходящий момент.

Балансировщик трафика — это такая штука, которая равномерно распределяет входящий трафик между серверами или сервисами.

Один из компонентов, отвечающих за действия столкнулся с задержками, которые накапливались и в итоге сломали DNS-резолюцию для API DynamoDB. Запросы не могли найти IP-адреса, и пошло-поехало... Каскад на 113 сервисов.

Никаких упоминаний про ИИ в отчёте нет. То есть, этот сбой — чисто внутренняя инфраструктурная хрень, которая проявилась из-за комбо из обновления и этого дефекта.

AWS говорит, что всё уже пофиксили и ввели новые меры — больше автоматизированного мониторинга и тестов на такие "спящие" баги. Плюс, они добавили в CloudWatch фичу для авто-генерации отчётов об инцидентах, чтобы пост-мортемы делать быстрее.

🧐 Итоги

Данный случай очень наглядно показал насколько уязвимы монополии вроде Amazon Web Services.

Для справки: более 30% интернета зависит от Amazon Web Services (AWS).

Эксперты советуют диверсифицировать провайдеров, то есть использовать так называемый мультиоблачный (multi-cloud) подход.

Кстати, это не первый такой крупный сбой. CrowdStrike в 2024-м ещё не забыт. Другой вопрос, извлекли ли уроки из этих случаев.

Что же касается вины ИИ... Ни в Reuters, ни в анализе от ThousandEyes об этом нет ни слова. Хотя слухи про "роботы не справились после увольнений" витают в воздухе, но доказательств ноль. Да и отчёт AWS причастность ИИ к сбою полностью исключает. Но даже, если какой-то след ИИ и был, то говорить об этом громко Amazon вряд ли стал бы. 🤐

Как по мне, за ИИ зацепились чисто ради хайпа. Он же безмолвный, не обидится, не подаст в суд, так что можно его тапками закидать без последствий, даже если его причастность не доказана.

А вы что думаете? Сбой в Amazon Web Services чисто технический косяк или всё же ИИ-след виднеется? 😄

💙💙💙💙💙💙💙💙💙💙💙💙💙

Спасибо за внимание... И заглядывайте 👉 https://vk.com/prilozhenechka тут тоже выкладываю интересное по технологиям и нейросетям. 😉

Топ забавных американских стереотипов о России от ChatGPT
ПрилоЖенечка10 июля