19 июля компания CrowdStrike выпустила программное обновление и «положила» десятки тысяч компьютеров по всему миру. Как с этой проблемой справились в American Airlines Group – в специальном материале Bloomberg
В 00:30 19 июля Джессику Тайлер разбудил телефонный звонок с работы. В этом нет ничего необычного. Тайлер руководит IOC - интегрированным операционным центром American Airlines Group, расположенным недалеко от аэропорта Даллас-Форт-Уэрт. IOC — это мозговой центр American Airlines, управляющий более чем 6 тыс. ежедневных рейсов.
Диапазон проблем, с которыми приходится сталкиваться IOC поражает воображение: зимние штормы и летние ураганы, механические поломки и облака вулканического пепла. Каждое решение, которое принимают там люди, должно учитывать огромный список факторов, в том числе графики технического обслуживания и замены множества деталей в каждом самолёте, а также согласованные с профсоюзами ограничения по времени для сотрудников.
Если президентский самолёт прилетает в один из хабов American Airlines, останавливая там всё на несколько часов, это проблема IOC. Если в городе проходит концерт Тейлор Свифт и нет свободных номеров в отелях для размещения американских экипажей на ночь, это ещё одна головная боль. Как выразилась Тайлер, «это управляемый хаос».
То, что происходило в ту ночь, грозило ещё большим хаосом: компьютерные системы, на которые оперативный центр полагался при управлении полётами, а также при передаче информации пилотам, отслеживании погоды, мониторинге задержек и выявлении проблем в аэропортах, просто перестали работать. Оказалось, что все они были оснащены программным обеспечением от CrowdStrike Holdings, техасской компании по кибербезопасности.
Тайлер быстро доехала от своего дома до мозгового центра авиакомпании. На парковке перед IOC, невысоким зданием, с устойчивым к торнадо стеклами, начали собираться коллеги, получившие похожие звонки. Все они поднялись на второй этаж, в конференц-зал, заставленный рабочими столами.
Зрелище, представшее их взору, было невероятным, как в комнате смеха. В тускло освещённом помещении было полно экранов — на столах и над головой. В ту ночь вместо того, чтобы показывать карты маршрутов и аэропортов, погодные системы или расписания в реальном времени, это море мониторов безмолвно включалось и выключалось, снова и снова... «Было жутковато», — вспоминает Тайлер.
Вскоре стало ясно, что American Airlines была не одна. От экипажей поступали сообщения о том, что системы также не работали в отелях, где бортпроводники и пилоты пытались зарегистрироваться на ночь. Компьютеры некоторых поставщиков топлива American Airlines также выдавали так называемый «синий экран смерти».
Сбой CrowdStrike, вызванный некорректным обновлением программного обеспечения компании, в конечном итоге затронул 8,5 млн компьютеров по всему миру, стал главной новостью и послужил суровым напоминанием о хрупкости многих цифровых платформ, от которых зависит наша жизнь. Для авиакомпании эта проблема была особенно актуальной: в момент сбоя систем в воздухе находилось около 200 самолетов American Airlines. Позже в то же утро должны были взлететь ещё тысячи самолётов, которые поддерживали разветвлённую компании, и которая, если бы ситуация продолжила развиваться, с течением дня становилась бы всё более запутанной.
Даже в хороший день управление авиакомпанией требует обработки гигантских объёмов данных. И, как и любая другая отрасль, авиакомпании пытаются понять, какую пользу им могут принести технологические достижения. Но при этом им приходится сталкиваться с рядом противодействующих факторов: низкой рентабельностью, требованиями регулирующих органов и рабочей силой, на которую влияют профсоюзы. Кроме того, существует дополнительная проблема: как отремонтировать машину, которая никогда не останавливается.
При нормальной работе за IOC American Airlines следит руководитель, работающий 12-часовую смену на мостике — приподнятом пространстве в центре диспетчерской. На мостике также находятся представители службы управления полётами, планирования экипажей, технического обслуживания, информационных технологий, обслуживания клиентов, службы безопасности, бортовых операций и пилоты.
В одном конце этажа IOC находится большое помещение с рядами столов, на которых по нажатию кнопки поднимаются компьютерные мониторы. На стене висят две гигантские карты мира. Это командный центр. Большую часть времени он пустует или используется для тренингов.
Но во время чрезвычайных ситуаций там собираются представители всех подразделений авиакомпании для координации действий. Авиакомпания создала командный центр, когда Министерство обороны США привлекло American Airlines и других перевозчиков для перевозки тысяч американских военнослужащих во время хаотичного вывода войск из Афганистана в 2021 году.
Руководители American Airlines, впервые подробно рассказывающие о том, как они справились с кризисом CrowdStrike, говорят, что решили создать командный центр почти сразу.
По сообщениям на технических форумах и в разговорах с деловыми партнёрами специалисты по информационным технологиям American Airlines восстановили картину произошедшего. Но первоочередной задачей было убедиться, что диспетчеры в IOC могут поддерживать связь с пилотами самолётов в воздухе — ночных внутренних рейсов, направляющихся на запад, и ночных рейсов, летящих в Азию или возвращающихся из Европы. Авиадиспетчеры поняли, что сбой нарушил связь, которую они использовали для поддержания постоянного контакта с самолётами в воздухе.
В качестве запасного варианта они обратились в командный центр управления воздушным движением FAA в Уоррентоне с просьбой передавать сообщения пилотам American Airlines — эта возможность не пострадала после сбоя программного обеспечения. Этого было достаточно, пока всё не восстановилось.
Тем не менее, это была лишь одна из функций, которые перестали работать. Системы безопасности в аэропорту, которые пропускали членов экипажей на борт по бейджам, не работали. Не работало и программное обеспечение, отслеживающее зарегистрированные багаж. Поставщики питания для были парализованы. Чтобы вернуть системы в рабочее состояние или найти обходные пути, было нужно время. И проблемы будут только усугубляться.
Тайлер вспоминает знаменитый скетч I Love Lucy, в котором Люси, устроившись на шоколадную фабрику, пытается не отставать от неумолимо ускоряющейся конвейерной ленты с конфетами. «Нужно остановить конвейер», — говорит Тайлер.
В 12:45 по запросу American Airlines FAA объявило наземную остановку всех рейсов компании, заморозив все ее самолеты, которые находились на земле. Но быстро стало ясно, что это только откладывает расплату. IOC собирался ввести пакет мер по отмене рейсов.
Авиакомпании не любят отменять рейсы. Отчасти потому, что это не любят путешественники. Но у них есть и другие причины. Отмены рейсов не только ставят в затруднительное положение пассажиров, но и вынуждают самолёты лететь из городов прибытия в другие места. И такие сбои распространяются по всей сети. Есть и другие последствия: авиакомпании используют свои самолёты для доставки запчастей в ремонтные мастерские, поэтому отмена рейса может означать, что деталь, необходимая для конкретного самолёта в конкретном аэропорту, не будет доставлена.
Тем не менее, руководители IOC на мостике управления решили, что другого выбора нет. (Помимо всего прочего, авиакомпания столкнулась с грозами в своём хабе в Шарлотте.)
Как всегда, планировщики постарались минимизировать ущерб, выбрав как можно больше рейсов туда и обратно и убедившись, что в аэропортах, где отменённые рейсы должны были временно задержаться, есть свободные места у стоек регистрации. С 4 до 5 утра American Airlines отменила 114 рейсов. Через час после этого были отменены еще 148 рейсов.
По мере того, как отменялись рейсы, ИТ-специалисты пробирались по этажам центра управления. Починить компьютеры было не сложно: удалить проблемный файл, а затем перезагрузить. Но это нужно было делать индивидуально, с каждым компьютером в отдельности. К полудню авиакомпания работала более или менее нормально, хотя и с задержками.
«К трём часам дня подавляющее большинство наших деловых партнёров также восстановили свою деятельность», — говорит Сюзанна Уильямсон, подчиненная Джессики Тайлер. На следующий день, 20 июля, коэффициент выполнения рейсов American Airlines — процент успешно завершённых рейсов — снова составил 98,9%.
Такой механизм принятия решений не всегда работает идеально. Авиакомпания Delta Air Lines, которая, пожалуй, за последние несколько лет показала лучшие результаты в США, не стала отменять значительное количество рейсов в первые часы 19 июля. Почти неделю спустя она всё ещё занималась застрявшими пассажирами и неправильно отправленным багажом, и была вынуждена отменить 7 тыс. рейсов.
Delta отказалась комментировать свою реакцию на CrowdStrike, сославшись на то, что её генеральный директор Эд Бастиан ранее сказал в интервью Wall Street Journal: «Мы не хотели отменять рейсы слишком быстро, потому что ситуация была нестабильной». Авиакомпания подала в суд на CrowdStrike, оценив ущерб от инцидента в $500 млн, а CrowdStrike подала встречный иск, обвинив Delta в попытке переложить вину.
Ежедневное управление операциями, как регулярными, так и нерегулярными, — это то, что American Airlines очень тщательно пытается модернизировать. В начале ноября авиакомпания, наконец, завершила обновление своей системы планирования полётов — программного инструмента для диспетчеров.
У её конкурентов тоже ведутся подобные работы. Эндрю Медленд, руководитель авиационного подразделения консалтинговой фирмы Oliver Wyman, использует медицинскую аналогию, чтобы описать ситуацию в отрасли: «Пациент на операционном столе, операция идет, органы пересаживаются, но предстоит ещё много работы». И в отличие от большинства пациентов, этому нужно продолжать работать, пока он под наркозом.
Авиакомпании, и, в частности, American Airlines, были первопроходцами в использовании компьютеров для решения самых разных задач: от управления запасами комплектующих и бронированиями до расчёта оптимальных цен на билеты. Некоторые из этих некогда революционных систем используются до сих пор, иногда на мейнфреймах под слоями более новых программных инструментов.
Отчасти это наследие десятилетий слияний и долгого процесса интеграции, который следует за каждым слиянием. Но это также свидетельство того, как сложно изменить отлаженную работу, основанную на человеческом труде, и усвоить накопленные знания. «Мы так не быстро внедряем эти системы, — говорит Сеймур, главный операционный директор American, — потому что в них много сложностей».
Источник: Bloomberg
Ставьте лайки, подписывайтесь на наш канал и оставляйте комментарии внизу. Теперь мы и в Телегараме t.me/aviaoboz
Читайте еще на канале