Минувший понедельник мир, возможно, запомнит как день, когда состоялся один из самых глобальных сбоев в работе мировой паутины за всю ее историю. Накануне вечером пользователи начали массово жаловаться на недоступность социальной сети Facebook. Затем, по цепочке начали падать принадлежащие компании WhatsApp и Instagram. Следом проблемы начали возникать у других мессенджеров и социальных сетей, в том числе у Google, Amazon и Twitter.
Вслед за перечисленными выше, постепенно начали обрушиваться и другие сервисы. Так, уже через два часа стал недоступен Tik-Tok, потом проблемы добрались и до российского “ВКонтакте”. Чуть позже проблемы докатились до Netflix, Zoom, Viber, Tinder, YouTube. Больше всего жалоб на сбои поступало из из США и Великобритании, а также из Канады, Нидерландов, Германии, Италии и Франции.
Несколько позже специалистам удалось подсчитать примерные масштабы сбоя в работе социальных сетей. Так, о проблемах в работе Facebook сообщили 126 тысяч человек, WhatsApp - более 35 тысяч пользователей, а Instagram — около 100 тысяч юзеров. Речь идет только о тех, кто сообщил о сбоях на портале Downdetector: в реальности число тех, кто не смог воспользоваться сервисами компании, больше.
Но проблема с доступностью коснулась не только крупнейших социальных сетей. Также парализованными оказались сервисы для внутренней коммуникации компании Facebook, что серьезно усугубляло проблему. Кроме этого, сотрудники Facebook долгое время не могли попасть в офис в ночное время из-за сбоя в охранной системе офиса.
Примечательно, что обвал крупнейших социальных сетей повлек за собой и сильное падение на фондовом рынке. Глобальный сбой Facebook привел к падению котировок акций компании на 5,3%, что обернулось для Марка Цукерберга потерей 6,6 миллиардов долларов. В рейтинге богатейших людей планеты он потерял сразу несколько позиций и опустился на шестое место.
В компании изначально не могли озвучить точную причину сбоя, но многие эксперты связывают проблему с неполадками в работе DNS-серверов. Как пояснил директор по интернет-анализу компании Kentik Inc. Даг Мадори, проблема могла заключаться в том, что записи DNS, с помощью которых система находила Facebook.com и Instagram.com, могли быть удалены из таблиц глобальной маршрутизации.
Аналогичной точки зрения придерживается и эксперт инжинирингового центра SafeNet НТИ Игорь Бедеров. Он также считает, что причиной проблемы стала неисправность, связанная с DNS.
Несколько позже, Facebook в своем официальном блоге опубликовал пост, посвященный событиям понедельника. По данным экспертов компании, сбой был вызван из-за неполадок в системе, которая управляет пропускной способностью магистральной сети.
“Основой является сеть, созданная Facebook для объединения всех наших вычислительных мощностей, состоящая из десятков тысяч миль волоконно-оптических кабелей, пересекающих земной шар и соединяющих все наши центры обработки данных.Когда вы открываете одно из наших приложений и загружаете свой канал или сообщения, запрос приложения на данные отправляется с вашего устройства в ближайшее учреждение, которое затем напрямую связывается по нашей магистральной сети с более крупным центром обработки данных. Именно там информация, необходимая вашему приложению, извлекается, обрабатывается и отправляется обратно по сети на ваш телефон.Трафик данных между всеми этими вычислительными средствами управляется маршрутизаторами, которые определяют, куда отправлять все входящие и исходящие данные. И в ходе обширной повседневной работы по обслуживанию этой инфраструктуры, нашим инженерам часто приходится отключать часть магистрали для технического обслуживания – возможно, ремонтировать оптоволоконную линию, увеличивать пропускную способность или обновлять программное обеспечение на самом маршрутизаторе.Это было причиной вчерашнего отключения. Во время одного из этих плановых ремонтных работ была выдана команда с намерением оценить доступность глобальной магистральной сети, которая непреднамеренно отключила все соединения в нашей магистральной сети, отключив центры обработки данных Facebook по всему миру. Наши системы предназначены для аудита подобных команд, чтобы предотвратить подобные ошибки, но ошибка в этом инструменте аудита не позволила ему должным образом остановить команду.
Это изменение привело к полному отключению серверных соединений между нашими центрами обработки данных и Интернетом. И эта полная потеря связи вызвала вторую проблему, которая усугубила ситуацию. Одна из задач, выполняемых нашими небольшими предприятиями, заключается в том, чтобы отвечать на запросы DNS. DNS-это адресная книга Интернета, позволяющая переводить простые веб-имена, которые мы вводим в браузеры, на конкретные IP-адреса серверов. На эти запросы о переводе отвечают наши авторитетные серверы имен, которые сами занимают хорошо известные IP-адреса, которые, в свою очередь, рекламируются остальной части интернета с помощью другого протокола, называемого протоколом пограничного шлюза (BGP).Чтобы обеспечить надежную работу, наши DNS-серверы отключают BGP, если они сами не могут связаться с нашими центрами обработки данных, поскольку это свидетельствует о нездоровом сетевом подключении. Во время недавнего отключения вся магистраль была выведена из эксплуатации, в результате чего эти места объявили себя нездоровыми и отозвали рекламу BGP. Конечным результатом стало то, что наши DNS-серверы стали недоступны, хотя они все еще работали. Это сделало невозможным для остальной части интернета поиск наших серверов.Все это произошло очень быстро. И пока наши инженеры работали над тем, чтобы выяснить, что происходит и почему, они столкнулись с двумя большими препятствиями: во-первых, не было возможности получить доступ к нашим центрам обработки данных обычными средствами, потому что их сети были отключены, и, во-вторых, полная потеря DNS сломала многие внутренние инструменты, которые мы обычно использовали бы для расследования и устранения подобных сбоев.Наш основной доступ к сети был отключен, поэтому мы послали инженеров в центры обработки данных, чтобы они устранили проблему и перезапустили системы. Но на это потребовалось время, поскольку эти объекты спроектированы с учетом высокого уровня физической и системной безопасности. В них трудно проникнуть, а внутри оборудование и маршрутизаторы спроектированы так, чтобы их было трудно модифицировать, даже если у вас есть физический доступ к ним. Поэтому потребовалось дополнительное время, чтобы активировать протоколы безопасного доступа, необходимые для того, чтобы люди могли находиться на месте и работать на серверах.
Как только наше подключение к магистральной сети было восстановлено во всех регионах наших центров обработки данных, все вернулось на свои места. Но проблема не была решена - мы знали, что одновременное включение наших сервисов потенциально может привести к новому витку сбоев из-за резкого увеличения трафика. Отдельные центры обработки данных сообщали о снижении энергопотребления в диапазоне десятков мегаватт, и внезапное изменение такого снижения энергопотребления могло поставить под угрозу все.К счастью, это событие, к которому мы хорошо подготовились благодаря учениям, которые мы проводим уже долгое время. Во время учений мы имитируем серьезный системный сбой, проводя стресс-тестирование всей задействованной инфраструктуры и программного обеспечения. Опыт, полученный в ходе этих тренировок, дал нам уверенность и опыт, чтобы вернуть все в онлайн-режим и тщательно справляться с возрастающими нагрузками. В конце концов, наши сервисы восстановились относительно быстро, без каких-либо дальнейших системных сбоев. И хотя мы никогда ранее не запускали вариант, который имитировал бы отключение нашей глобальной магистрали, мы, безусловно, будем искать способы моделирования подобных событий в будущем”, - говорится в сообщении компании.