Платформа контроля выполнения IT-решениями целевых показателей надежности (SLO)

Заказчик
АСНА
Руководитель проекта со стороны заказчика
ИТ-поставщик
АСНА
Год завершения проекта
2021
Сроки выполнения проекта
Январь, 2021 - Октябрь, 2021
Масштаб проекта
5000 человеко-часов
Цели
Основная цель:
Создать платформу, которая позволит контролировать выполнение IT-решениями целевого уровня надежности (SLO).
Подцель 1: Визуализировать текущие показатели (SLI) функциональной доступности IT-решений.
Подцель 2: Создать систему оповещения команд разработки IT-решений при ухудшении каких-либо показателей в ходе их работы.

Уникальность проекта

Уникальные решения, успешно реализованные в рамках проекта:
  1. Собственный сервис расчета и публикации показателей доступности (SLI), интегрированный с решениями Grafana и StatusIO.
  2. Собственное техническое решение для контроля бизнес-показателей работы 1С решений (через Prometheus Exporter).
  3. Техническое решение поиска аномалий на базе сравнения с историческими данными.
  4. Автоматизирован контроль работы более 200 сквозных бизнес-процессов
Проект решает задачи импортозамещения
Нет
Использованное ПО
Для системы метрик:
Prometheus Time Series Database – для хранения метрик.
Grafana – для визуализации метрик и настройки алертингов.
StatusIO – платформа управления инцидентами.
Slack – для доставки алертов команде разработки.

Платформа - самописная реализация на Python.

Сложность реализации
Сложности:
  • Закрытость 1С для внешнего контроля. Необходимость поиска аномалий.
  • Большое кол-во контролируемых интеграционных (с внешними системами) решений.
  • Создание правильного движения событий и данных по пути: IT-решение -> Показатели (метрики) -> Prometheus -> Grafana -> Сервис расчета и публикации показателей -> SLO/SLI web portal.

Описание проекта
1. IT-решения публикуют показатели (метрики) своей работы.
Кроме того, сама платформа умеет самостоятельно снимать определенные показатели работы контролируемого IT-решения.
Полученные показатели отображаются на дашбордах Grafana. В текущей версии платформы успешно реализован контроль таких метрик, как:
  • Контроль поступления B2B заказов из/в проинтегрированных внешних систем.
  • Контроль формирования и выгрузки прайс-листов.
  • Контроль выполнения регламентных заданий в 1С.
  • Контроль выполнения расчетов в DataLake.
  • Контроль выгрузки документов с Тензор СБИС.
  • Контроль доступности и скорости работы ключевых страниц ecomm B2C площадки asna.ru.
  • Контроль доступности и скорости работы ключевых страниц B2B портала AlphaOne.
Все метрики снимаются как «в моменте», так и выполняется поиск аномалий, когда например метрика удовлетворительна, но в сравнении с историческими показателями ниже (или выше) нормы.

2. Далее, на основе полученных показателей конфигурируются параметры алертов. Данные алерты прокидываются в корпоративный чат - Slack, где инженеры технической поддержки и разработки обязаны отреагировать на алерт в четко определенное время, в зависимости от уровня критичности алерта. При необходимости в автоматическом режиме или (для определенных сценариев - в ручном режиме) создаются инциденты.

3. Далее, на основе возникающих алертов и инцидентов платформа автоматически рассчитывают показатели SLI и визуализируют их на специальном SLO/SLI web portal.

География проекта
Россия
Дополнительные презентации:
Проект года 2021. Надежность.pdf
Коментарии: 2

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Роман Печенигин
    Рейтинг: 406
    Калининградский Государственный Научно-Исследовательский Центр (КГНИЦ)
    Руководитель группы «Удостоверяющий центр»
    08.01.2022 23:06

    Добрый день! Подскажите, пожалуйста, как вы оценивали эффективность работы системы и как снимали и учитывали обратную связь от потребителей? Почему вы решили вести разработку платформы на Python и как видите дальнейшее развитие системы?

    • Сергей Полянин Роман
      Рейтинг: 162
      На уточнении
      На уточнении
      09.01.2022 00:37

      Эффективность оцениваем через кол-во пойманных аварий. Точнее так - авария, о которой узнали не от платформы - это недоработка платформы. Сейчас такие ситуации - уже редкость.
      Python выбран как простой для погружения и вместе с тем - эффективный язык для написания тестов.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.