Контакты
отдел продаж
тех. поддержка
20 января 2024

Сокращаем количество инцидентов
и прокачиваем системы мониторинга

Как мы поддерживаем стабильную работу платформы

директор по продукту HRlink
Автор статьи
Лера Романова
шеф-редактор HRlink
Сергей Красноперов
Эксперт
Количество клиентов и пользователей HRlink постоянно растет. Вместе с этим увеличивается нагрузка на систему. Ключевой целью нашей команды на 2024 год стало повышение надежности.

Мы уже рассказывали, что большим шагом в этом направлении стало подключение второго удостоверяющего центра (УЦ) для выпуска сертификатов ключей электронных подписей (ЭП). Обновление позволило исключить сложности в случае задержек в одном из УЦ — теперь клиенты могут выпустить сертификат во втором и продолжить работу в КЭДО.В статье рассказываем, какие еще проекты реализовали для повышения надежности и как поддерживаем стабильную работу КЭДО-платформы.
Благодаря автоматизации сегодня мы реагируем на любые события в системе в среднем за одну минуту. Это значит, что в большинстве случаев пользователь даже не успевает заметить, что произошел какой-то сбой.
Сергей Красноперов, директор по продукту HRlink
Внимание на количество инцидентов
Инцидент — это незапрограммированное поведение системы, когда в работе платформы происходит то, чего мы и клиенты не ожидаем. У инцидентов бывает разный масштаб.
Сравните отключение Wi-Fi в офисе на десять минут и падение сервиса КЭДО на сутки. Разница масштаба и последствий очевидна. В первом случае можно быстро восстановить доступ в интернет, и работа не пострадает. Во втором — клиенты целый день не смогут подписывать кадровые документы. Провайдер нарушит SLA, а лояльность пользователей упадет.
Сергей Красноперов, директор по продукту HRlink
Со второго квартала 2024 года наша команда запустила проект «‎Дни без инцидентов»‎. В конце каждой недели разработчики готовят обзор главных событий. В нем описывают и классифицируют все инциденты недели и рассказывают команде, почему они случились и как мы с ними боролись.

Проект «‎Дни без инцидентов» ‎— наглядный показатель наших действий по повышению надежности платформы. В рамках него мы развиваем собственные механизмы мониторинга, которые исключают непредвиденное поведение системы и обеспечивают ее стабильную работу.
Дарим гайд по выбору КЭДО за подписку на блог

Почему мы решили развивать системы мониторинга

Мы всегда занимались мониторингом работы серверов — снимали стандартные системные метрики, следили за производительностью. Но чтобы уменьшить количество инцидентов, нужно уметь не только обнаружить их, но и предсказать. В этом помогают системы мониторинга.
Как градусник показывает температуру организма, так система мониторинга подсвечивает, насколько стабильна платформа. Если значения в пределах нормы — экстренная помощь не требуется. Если наблюдаются отклонения, система мониторинга подскажет, в чем может быть причина и какая «программа лечения» нужна.
Система мониторинга — это инструмент, позволяющий выявлять и предупреждать неполадки в цифровых бизнес-процессах. Он собирает данные в реальном времени и анализирует заданные параметры поведения проекта.

Детальный мониторинг этапов бизнес-процессов

Чтобы предсказывать инциденты до того, как они произошли или успели оказать влияние на работу системы, мы анализируем целые бизнес-процессы. Подписываются ли электронные документы, конвертируются ли печатные формы, отправляются ли уведомления — ответы на эти и другие вопросы позволяют более полно увидеть картину происходящего.
Мы стали фокусироваться не только на исправлении инцидента, но и на его предотвращении. Наш целевой показатель сейчас — 60%. То есть мы должны предсказывать больше половины всех инцидентов до того, как они произошли и оказали влияние на бизнес клиента.

Почему именно 60%? Мирового стандарта этого показателя не существует. Потому что для разного класса систем действуют свои подходы и правила. Многие компании вообще фиксируют 100% инцидентов только на основании заявок пользователей.

В нашем случае предсказывание более 50% инцидентов говорит об очень серьезном уровне автоматизации. А наша следующая цель — 80%.
Сергей Красноперов, директор по продукту HRlink

Автоматическое обнаружение инцидентов

Важные составляющие системы управления инцидентами — раннее обнаружение и быстрая реакция на них. Мы настроили систему так, что она автоматически обнаруживает потенциальную проблему на одном из этапов бизнес-процессов и информирует об этом в каналах связи, например, в Telegram.
Автоматическое уведомление о том, что возникли проблемы в сервисе отправки еmail-уведомлений
Представьте: для подписания электронного документа в КЭДО вы нажимаете всего одну кнопку, а система при этом совершает 25 шагов. Если на одном из них произошла ошибка или ситуация, приближенная к ошибке, специалист сразу же узнает об этом.

Сегодня мы реагируем на любые инциденты в среднем за 1 минуту. А пользователь даже не успевает заметить, что произошел сбой.
Также мы ввели маршруты эскалации. Если ответственный не реагирует на сообщение об инциденте несколько минут, система начинает оповещать его в других каналах связи с автоматической эскалацией на руководителей, пока происшествие не будет взято в работу.

Статус инцидента отображает цветной кружок в левом верхнем углу сообщения. Он бывает трех видов:
  • красный — инцидент зафиксирован, но никто еще не взял его в работу;
  • оранжевый — ответственный специалист работает над инцидентом;
  • зеленый — все решено.
Оранжевый кружок означает, что специалист работает над инцидентом

Коротко о главном

Что мы сделали:
1. Выстроили процесс оперативного реагирования на оповещения от мониторингов, сделали акцент на скорость реакции.
2. Скорректировали график дежурств техподдержки и инженеров по надежности.
3. Запустили анализ инцидентов и разработку мероприятий, чтобы снизить вероятность повторения.

Перечисленные шаги помогли нам перестроить систему управления инцидентами. Сегодня наша команда не только быстро реагирует на любые события, которые происходят в системе. Глубокий анализ каждого инцидента помогает избегать повторения ошибок. Мы постоянно принимаем новые меры, чтобы поддерживать стабильное качество и скорость работы нашей КЭДО-платформы.

Рекомендуем по теме: