Комментарии 3
Спасибо за разбор, жизненно! В формулу RTO я бы добавил еще один скрытый тайм-киллер — «время на совещание». На практике, если RTO равен 2 часам, первый час часто уходит на панику, сбор экстренной летучки и пинги руководства в духе: «А точно переключаем? А данные не потеряем?». Если у дежурного инженера нет жесткой инструкции и права нажать кнопку Failover без согласования с бизнесом, то все технические метрики летят в трубу.
Хорошо расписано, но наоборот "не жизненно". В жизни встречаются интеграторы, которые и слов таких не знают SLA, RTO, RPO .
А вот ещё интересная задача. У Яндекса падает зона а. Переключаться на b (с огромным геморроем потом) или подождать когда они починят (возможно через пол часа)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
С самого начала у нас был четкий план восстановления, и мы его придерживались: как рассчитать честные RTO и RPO