November 01, 2018

Хороший пост для начала рабочего дня :)

Post-mortem разбор недавней аварии GitHub. По сути получили split brain между двумя ДЦ на разных побережьях на 43 секунды. А восстановление заняло чуть больше суток. Оцените как быстро инженеры поняли в чем проблемы и общую адекватность их действий. Ну и конечно подробности, с которыми описано все что произошло. Среди российских компаний публикация таких отчётов всё ещё очень редкая практика.

habr.com/post/428409/

Анализ инцидента 21 октября на GitHub

Роковые 43 секунды, которые вызвали суточную деградацию сервиса На прошлой неделе в GitHub произошёл инцидент, который привёл к деградации сервиса на 24 часа...