Управление инцидентами: простой процесс реагирования на аварии
Backend

Тезисы

В нашем продукте инциденты обходятся бизнесу дорого, но внедрять суровые практики для доступности «пять девяток» избыточно. Стояла задача построить процесс управления инцидентами для систематизации подхода к авариям, построения и улучшения метрик реагирования. При этом нужен легковесный и простой в использовании процесс.

На основе своего опыта я расскажу, как построить процесс, не создающий лишней нагрузки на разработчиков. Опишу, что у нас получилось: классификация инцидентов, матрица рисков, разбор постмортемов, инструменты, регламенты, обучение дежурных. Если раньше причины устранялись только у половины инцидентов, то теперь ни одной аварии не проходит без внимания.


Аудитория

Backend-developer, devops-engineer, product-manager, team-lead.


Уровень сложности

Middle.

Презентация (на Я.Диске)

Записи выступлений доступны платным участникам CodeFest
В свободном доступе появятся через пол года

Залогиниться

auto.ru

Михаил Чугунков

Руководит бэкенд-разработкой в auto.ru. Программирует на Scala, участвовал в OpenSource-сообществе. Последнее время занимается управлением разработкой.

Руководит бэкенд-разработкой в auto.ru. Программирует на Scala, участвовал в OpenSource-сообществе. Последнее время занимается управлением разработкой.

Другие спикеры секции Backend

Еще на тему Backend