В нашем продукте инциденты обходятся бизнесу дорого, но внедрять суровые практики для доступности «пять девяток» избыточно. Стояла задача построить процесс управления инцидентами для систематизации подхода к авариям, построения и улучшения метрик реагирования. При этом нужен легковесный и простой в использовании процесс.
На основе своего опыта я расскажу, как построить процесс, не создающий лишней нагрузки на разработчиков. Опишу, что у нас получилось: классификация инцидентов, матрица рисков, разбор постмортемов, инструменты, регламенты, обучение дежурных. Если раньше причины устранялись только у половины инцидентов, то теперь ни одной аварии не проходит без внимания.
Backend-developer, devops-engineer, product-manager, team-lead.
Middle.
Презентация (на Я.Диске)
Руководит бэкенд-разработкой в auto.ru. Программирует на Scala, участвовал в OpenSource-сообществе. Последнее время занимается управлением разработкой.