Найти тему

Далеко ли до архитектора?

Сделал мини-тест на понимание "насколько вы приблизились к архитектору с примерами из VMware".

Далее пойдут правильные ответы с объяснениями, поэтому сначала дам ссылку на сам тест - если захотите попробовать ответить самостоятельно, и только потом прочитать объяснение.

https://t.me/vmugru/195323

В тесте используются несколько базовых понятий - RPO, RTO, Отказоустойчивость, Катастрофоустойчивость, Экономия, TCO, доступность, SLA. Именно этими понятиями оперирует архитектор.

Безусловно, сейчас архитектор одно из самых громких, многозначных, и откровенно сказать, пустых слов в ИТ. Поэтому я приведу собственное понимание этого термина.

Инженер - специалист, знающий КАК. Инженеру ставится задача ЧТО реализовать, и он знает какие настройки для этого подкрутить, какие кабели воткнуть.

Архитектор - специалист, понимающий ЗАЧЕМ, и ставящий задачу инженерам ЧТО сделать. Зачем - прежде всего в бизнес терминах, т.е. понимающий взаимосвязь ИТ решений с бизнес задачами, с деньгами и бизнес рисками.

1. Начнем с первого вопроса - "что измеряется в девятках?"

Соглашение об уровне сервиса SLA (service level agreement) состоит из целевого уровня сервиса SLO (service level objective), который в свою очередь является набором из одного или нескольких индикаторов SLI (service level indicator), и штрафных санкций. Соответственно только SLI может измеряться в девятках, но не обязательно.

Аптайм (uptime) измеряется в часах (днях, годах) - это время непрерывной работы конкретной железки.

И только процент доступности сервиса (или конкретной железки) за выбранный период времени измеряется в девятках (99.99% - четыре девятки).

2. "vMotion - технология?"

Отказоустойчивость - принцип, согласно которому отказ компонента не влияет на работоспособность системы. Совсем не влияет. В английском прочтении этот термин называется Fault Tolerance. vMotion не имеет никакого отношения к данному принципу. Также можно сказать, что это принцип Design to last - создан, чтобы выдерживать отказы, оставаясь доступным.

Доступность (высокая доступность) - принцип максимизации процента доступности *сервиса*. В случае с VMware это технологии HA - быстрая обработка отказа и перезапуск сервиса (ВМ).

Разумеется vMotion - это технология экономии. Экономии на плановых простоях и сверхурочных при обслуживании оборудования. Благодаря vMotion сервис можно нон-стоп передвинуть с конкретных железок на другие, после чего обслуживать оборудование в стандартное рабочее время, а не по ночам.

Почему vMotion - НЕ балансировка нагрузки? vMotion является неотъемлемой частью, необходимой для балансировки, да. Но для балансировки необходим механизм мониторинга загрузки, оценки вариантов и принятия решений. И этот механизм называется DRS - Distributed Resource Scheduling.

3. "Растянутый метрокластер - технология?"

Растянутый метрокластер отличается от обычного кластера высокой доступности тем, что поделен на две части, находящиеся в разных географически разнесенных ЦОД.

Соответственно он не может являться технологией отказоустойчивости - не все отказы переживаются нон-стоп. Разумеется это технология доступности, но этот ответ лишен смысла из-за использования географически разнесенных ЦОД. Поэтому имеет смысл рассматривать только ответы, связанные с катастрофами.

Катастрофоустойчивость отпадает, поскольку в случае катастрофы, выводящей ЦОД А из строя, нагрузка переживает недоступность, связанную с перезапуском ВМ.

Избежание катастроф - не так широко известный термин, хотя я лично говорил о нем годами. Смысл его в том, что если катастрофа является только потенциальной, или наступает не мгновенно, то у нас есть возможность унести нагрузку на второе плечо при помощи vMotion.

Почему это не балансировка нагрузки - см вопрос 2.

4. "Как связаны HA и RPO"?

Правильный ответ - никак, разумеется.

RPO - Recovery Point Objective, целевое время потери данных. В случае с событием класса HA (смерть хоста) не происходит потери данных.

5. "Как связаны DPM и TCO"?

DPM - Distributed Power Management, технология позволяющая отслеживать уровни загрузки хостов кластера и при возможности выключать хосты для экономии электроэнергии по ночам / выходным.

Разумеется эта технология понижает TCO (Total Cost of Ownership), совокупную стоимость владения.

6. "Можно ли делать vMotion AMD <> Intel?"

Из коробки нельзя. Это не поддерживается VMware.

Но "не поддерживается" делится на два вида. Не поддерживается как не работат, и как "техподдержка откажет в обращении".

Правильный ответ "Если сильно захотеть, то можно".

Требование vMotion - идентичный набор инструкций процессора между хостами, чтобы ВМ не использовала отсутствующие инструкции - это приведет к синему экрану гостевой ОС.

При помощи CPUID Masking можно привести процессоры хостов к общему знаменателю. Более того, именно так работает технология EVC (Enhanced vMotion Compatibility) в автоматическом режиме.

7. "RAID 1 - технология?"

RAID 1 - зеркало. Разумеется это технология отказоустойчивости (позволяет прозрачно пережить отказ диска).

8. "Какая из технологий VMware принадлежит классу Design To Last?"

HA - технология быстрого перезапуска ВМ при отказе. Т.е. технология класса Design To Fail - ожидания и обработки отказа.

В списке есть две технологии, которые можно отнести к классу Design to Last, но только одна из них технология VMware - Fault Tolerance (FT).

9. "Как связаны RPO, RTO, TCO?"

Правильный ответ - чем ниже RPO и ниже RTO - тем выше TCO. Низкие (в числах) показатели RPO/RTO требует реализации избыточности на многих уровнях и ведут к повышению стоимости владения.

Потенциально могло показаться, что есть еще один вариант - чем выше RPO и RTO, тем ниже TCO. Но этот ответ неправильный - можно реализовать очень высокий TCO даже при низких требованиях к доступности.

10. "Можно ли применять бытовые кондиционеры для охлаждения серверной?"

Бытовые кондиционеры обладают одной неприятной чертой, они сушат воздух. При падении влажности воздуха ниже 60% начинает накапливаться опасная для электроники статика. Поэтому промышленные кондиционеры, применяемые в ЦОДах, контролируют влажность.

Соответственно вопрос-сарказм. Только в паре с ультразвуковым увлажнителем. Ведь рано или поздно его начнут заправлять водопроводной водой и ваши серверы покроются изнутри равномерным слоем накипи.