2021-10-19
Платформа контроля выполнения IT-решениями целевых показателей надежности (SLO)
- Заказчик:
-
АСНА
- Руководитель проекта со стороны заказчика
-
- Поставщик
-
АСНА
- Год завершения проекта
- 2021
- Сроки выполнения проекта
- Январь, 2021 - Октябрь, 2021
- Масштаб проекта
- 5000 человеко-часов
- Цели
- Основная цель:
Создать платформу, которая позволит контролировать выполнение IT-решениями целевого уровня надежности (SLO).
Подцель 1: Визуализировать текущие показатели (SLI) функциональной доступности IT-решений.
Подцель 2: Создать систему оповещения команд разработки IT-решений при ухудшении каких-либо показателей в ходе их работы.
Уникальность проекта
Уникальные решения, успешно реализованные в рамках проекта:
- Собственный сервис расчета и публикации показателей доступности (SLI), интегрированный с решениями Grafana и StatusIO.
- Собственное техническое решение для контроля бизнес-показателей работы 1С решений (через Prometheus Exporter).
- Техническое решение поиска аномалий на базе сравнения с историческими данными.
- Автоматизирован контроль работы более 200 сквозных бизнес-процессов
- Использованное ПО
- Для системы метрик:
Prometheus Time Series Database – для хранения метрик.
Grafana – для визуализации метрик и настройки алертингов.
StatusIO – платформа управления инцидентами.
Slack – для доставки алертов команде разработки.
Платформа - самописная реализация на Python.
- Сложность реализации
- Сложности:
- Закрытость 1С для внешнего контроля. Необходимость поиска аномалий.
- Большое кол-во контролируемых интеграционных (с внешними системами) решений.
- Создание правильного движения событий и данных по пути: IT-решение -> Показатели (метрики) -> Prometheus -> Grafana -> Сервис расчета и публикации показателей -> SLO/SLI web portal.
- Описание проекта
- 1. IT-решения публикуют показатели (метрики) своей работы.
Кроме того, сама платформа умеет самостоятельно снимать определенные показатели работы контролируемого IT-решения.
Полученные показатели отображаются на дашбордах Grafana. В текущей версии платформы успешно реализован контроль таких метрик, как:
- Контроль поступления B2B заказов из/в проинтегрированных внешних систем.
-
Контроль формирования и выгрузки прайс-листов.
-
Контроль выполнения регламентных заданий в 1С.
-
Контроль выполнения расчетов в DataLake.
-
Контроль выгрузки документов с Тензор СБИС.
-
Контроль доступности и скорости работы ключевых страниц ecomm B2C площадки asna.ru.
-
Контроль доступности и скорости работы ключевых страниц B2B портала AlphaOne.
Все метрики снимаются как «в моменте», так и выполняется поиск аномалий, когда например метрика удовлетворительна, но в сравнении с историческими показателями ниже (или выше) нормы.
2. Далее, на основе полученных показателей конфигурируются параметры алертов. Данные алерты прокидываются в корпоративный чат - Slack, где инженеры технической поддержки и разработки обязаны отреагировать на алерт в четко определенное время, в зависимости от уровня критичности алерта. При необходимости в автоматическом режиме или (для определенных сценариев - в ручном режиме) создаются инциденты.
3. Далее, на основе возникающих алертов и инцидентов платформа автоматически рассчитывают показатели SLI и визуализируют их на специальном SLO/SLI web portal.
- География проекта
- Россия
- Дополнительные презентации:
-
Проект года 2021. Надежность.pdf