305 подписчиков

аварийное восстановление в облаке

26 октября 202126 окт 2021

7 мин

Оглавление

Соревнование
Взвешивание вариантов
Создание облачной среды для аварийного восстановления

Переезд за пределы кампуса: аварийное восстановление в облаке

В течение многих лет центральным компонентом планирования аварийного восстановления колледжа Аллана Хэнкока было обеспечение резервного копирования критически важных данных и их доступности для восстановления. Но изменение в процедурах расчета заработной платы изменило подход калифорнийского общественного колледжа к восстановлению данных, в результате чего появилась облачная система аварийного восстановления, управляемая персоналом в облаке Amazon Web Services (AWS), что ускорило усилия по модернизации критически важных систем. «Многие люди запуганы облачной средой и думают, что это совершенно другой мир», - говорит Энди Шпехт, директор колледжа по услугам в области информационных технологий. "Это действительно не так уж и отличается".

Соревнование

Названный в честь лидера местного сообщества, Колледж Аллана Хэнкока - это общественный колледж на центральном побережье Калифорнии, который каждый семестр обслуживает более 11 500 студентов в четырех кампусах. Для отдела информационных технологий (ИТС) колледжа планирование аварийного восстановления было сосредоточено на обеспечении регулярного резервного копирования критически важных систем и данных с копиями, доступными на месте и в других местах для обеспечения отказоустойчивости.

«Парадигма аварийного восстановления заключалась в создании резервных копий данных - могли бы вы найти и восстановить все важные данные, которые есть в вашей системе», - говорит Спехт.

Однако, когда начисление заработной платы перешло от правительства округа к колледжу, эта парадигма должна была измениться. Нормативные требования требовали от Аллана Хэнкока не только обеспечить резервное копирование данных о заработной плате, но и чтобы системы обработки заработной платы могли продолжать работать с минимальными сбоями даже в обстоятельствах, связанных со стихийными бедствиями или техногенными катастрофами.

Как и многие высшие учебные заведения, Аллан Хэнкок продолжает управлять многими своими бизнес-процессами с помощью унаследованной локальной системы планирования ресурсов предприятия (ERP). Шпехт говорит, что ERP-система Ellucian Banner в колледже со временем превратилась в «обширную экосистему», поскольку учреждение добавляло и изменяло функции, включая начисление заработной платы. По словам Хэнкока, унаследованная система усложнила планы аварийного восстановления и обеспечения непрерывности услуг.

«Он не оптимизирован для передвижения», - говорит он. «Он был разработан для использования в помещениях, и вы строите его на протяжении многих лет и никогда ничего не снимаете.

Взвешивание вариантов

Работая с консалтинговой группой, Аллан Хэнкок рассмотрел несколько вариантов обеспечения продолжения работы систем расчета заработной платы в случае аварии.

Первый вариант предполагал строительство второго локального центра обработки данных в кампусе колледжа в Ломпок-Вэлли, примерно в 32 км от отеля. Но требования к оборудованию и инфраструктуре легко привели бы к шестизначному диапазону затрат. Запуск систем расчета заработной платы из вторичного центра обработки данных также будет зависеть от подключения к Интернету между двумя университетскими городками, которое может быть прервано стихийным бедствием, затронувшим оба университетских городка.

Колледж решил, что решение будет «достаточно хорошим для хранения резервных копий серверов, но не более того», - говорит Шпехт. «Это было далеко не так, чтобы иметь параллельные экземпляры наших систем».

Затем Аллан Хэнкок рассмотрел вариант размещения в арендованном помещении в коммерческом центре обработки данных. Но для этого потребовалось бы дополнительное оборудование и возникли проблемы с удаленным управлением оборудованием и системами. Колледж также изучил возможность полностью передать процесс на аутсорсинг через поставщика управляемого аварийного восстановления, известного как аварийное восстановление как услуга, но затраты были значительно выше. «Мы не нашли предложения, которое нам понравилось бы», - говорит Шпехт.

Последний вариант заключался в том, что отдел ИТС колледжа самостоятельно управлял аварийным восстановлением в облаке. Это обеспечит большее физическое расстояние для резервного копирования данных, а также возможность удаленного размещения серверов без необходимости покупать дополнительное оборудование и управлять им в удаленном месте. Аллан Хэнкок выбрал AWS в качестве поставщика облачных услуг, и в сентябре 2020 года сотрудники колледжа приступили к созданию решения для аварийного восстановления данных.

Создание облачной среды для аварийного восстановления

Процесс переноса операций резервного копирования и восстановления в облако занял менее двух месяцев. Первые шаги включали создание учетной записи в AWS и настройку сети. По словам Шпехта, понимание структур учетных записей у поставщиков облачных услуг, таких как AWS, представляет собой наиболее ощутимую, но в конечном итоге управляемую кривую обучения для сотрудников ITS.

«Структура учетной записи в AWS очень проста, - говорит он. После того, как вы настроили свою организацию, это не сильно отличается от управления виртуальными машинами. Эта часть очень интуитивно понятна ».

Более сложная часть процесса заключалась в определении того, какие функции и системы следует перенести на облачное аварийное восстановление. В конечном итоге колледж решил переместить около дюжины критически важных серверов, сосредоточившись в первую очередь на минимальном обслуживании, необходимом для выполнения операций по начислению заработной платы и печати чеков. Он также перенес функции бэк-офиса по регистрации студентов, включая финансовую помощь и обработку, на облачное резервное копирование и восстановление.

«Отказоустойчивость AWS предназначена для ключевых систем, когда вам нужно вернуть их обратно в течение нескольких часов, а не дней», - говорит Шпехт. «Мы постарались упростить задачу, не передавая серверы, которые не являются необходимыми или были очень большими».

Например, колледж решил оставить системы управления документами для просмотра вложений и других менее важных функций ERP-системы, резервные копии которых будут по-прежнему сохраняться в нескольких местах.

С этого момента Аллан Хэнкок начал копировать данные из своего локального центра обработки данных в облако AWS. Чтобы упростить процесс, колледж решил использовать CloudEndure Disaster Recovery, программное обеспечение для обеспечения непрерывности бизнеса, предлагаемое AWS, которое может реплицировать целые серверы, включая операционные системы, конфигурации системных уровней, базы данных, приложения и файлы. CloudEndure Disaster Recovery был выбран за его способность реплицировать широкий спектр приложений из локальных центров обработки данных в AWS и позволять им работать на AWS так же, как и локально.

Персоналу Аллана Хэнкока потребовалось всего шесть недель, чтобы реплицировать свои серверы в облако.

После того, как облачная система восстановления запущена и работает, в случае возникновения чрезвычайной ситуации сотрудники ITS могут использовать CloudEndure Disaster Recovery для развертывания виртуальных серверов колледжа в AWS в их полностью подготовленном состоянии за считанные минуты. По словам Шпехта, после внесения изменений в конфигурацию сервера доменных имен (DNS) колледжа действующие службы могут быть готовы к использованию всего за несколько часов.

Дополнительные преимущества - и основа для будущего роста

Колледжу Аллана Хэнкока еще не приходилось использовать свою новую систему аварийного переключения в реальной чрезвычайной ситуации, но сотрудники ITS уже видят значительные улучшения в процедурах аварийного восстановления, а также то, что Шпехт считает дополнительными преимуществами.

Вместо резервного копирования серверов через установленные интервалы CloudEndure Disaster Recovery непрерывно реплицирует серверы и данные в облаке. «Теперь у нас есть моментальные снимки не реже, чем каждые пять минут, поэтому в случае аварии это минимальная потеря данных», - говорит Спехт. «Это огромное преимущество перед другими процессами, когда у нас есть снимки один или два раза в день».

Облачный подход также помогает уменьшить локальные зависимости, которые могут усложнить аварийное восстановление. Например, колледж переместил свой локальный DNS на AWS ».

Основное преимущество состоит в том, что им несколько легче управлять, и все в одном месте », - говорит Шпехт. «Это также упрощает аварийное восстановление - нам все равно придется настраивать DNS, и это позволяет нам избежать копирования и настройки в облаке».

Что дальше с облаком

Успех Аллана Хэнкока в переносе аварийного восстановления в облако заставляет колледж сделать более сложный выбор - что делать с его устаревшей системой ERP. Персонал оценивает ряд вариантов, включая замену системы собственным облачным решением или перенос существующего в облачную среду.

«В конце концов, Ellucian Banner уйдет из локальной среды, но мы не уверены, как это будет выглядеть», - говорит Спехт. Он считает, что их опыт модернизации процессов аварийного восстановления ускорил переход к миграции в облако.

Сотрудники ИТС колледжа также все больше знакомятся с AWS и облачными методологиями. Наши разработчики сейчас экспериментируют с новыми веб-приложениями в AWS, которые используют Amazon Simple Email Service (SES). «Одно преимущество, которое мне нравится, - это то, что мои сотрудники развивают свои навыки», - говорит Шпехт.