Проект внедрения Платформы исследования рисков (Risk Research Platform, RRP)

Банк ВТБ внедрил платформу для интегрированного анализа рисков с использованием технологий больших данных для целей управления рисками и капиталом, а также расчета RORAC. Это позволило существенно снизить трудоемкость формирования внутренней и внешней отчетности, отказаться от ручного труда и существенно снизить риск человеческой ошибки при подготовке данных.

Реализация проекта шла в течение года: с июня 2020-го по июнь 2021-го. Масштаб работ – 15808 человеко-часов. Партнер проекта – компания Иннотех.

Иннотех                                                   ВТБ

Голосовать.png

В чем заключались цели проекта?

Банку ВТБ требовалась разработка платформы для интегрированного анализа рисков, включая кредитный и рыночные риски, с использованием технологий больших данных для целей управления рисками и капиталом, а также расчета RORAC.

Ключевыми целями проекта стали:

  • создание витрины данных и результаты расчетов калькуляторов рисков (кредитный и рыночные риски) реплицируются в Hadoop, синхронизируются на уровне сущностей и доступны для интегрированного анализа;
  • наполнение бизнес-глоссария с описанием каждой витрины, сущностей, атрибутов и различий между ними, контролями и целевыми уровнями качества данных;
  • проведение индустриализации процессов анализа данных и расчета риск-показателей, внедрения изменений в методологию, процедур актуализации данных;
  • реализация контроля качества данных, в т.ч. кросс-сверки между витринами платформы;
  • разработка и регламентация промышленных источников данных из витрин рисков.

Какова уникальность этого проекта?

Внедрение проекта поддержано с уровня Правления банка и реализовано единое окно данных для Блока Риски.

Внедрена функционально-ролевая модель участников процессов по работе с данными Блока Риски.

Реализованы промышленные потоки данных для регулярного наполнения Платформы и алгоритмы очистки и сопоставления данных, пришедших из различных источников. Проверяется непротиворечивость, консистентность, полнота данных.

Реализован логический слой витрин с раздельным доступом для владельцев и потребителей данных платформы, включая отчеты на базе моделей AQR и RORAC. Отчеты интегрированы в бизнес-процессы Банка.

Наполнен бизнес-глоссарий, содержащий более 20 тыс. согласованных бизнес-терминов.

Проект в масштабах Банка реализован точно в срок.

Подключены 23 системы источников и загружены более 6 Тб данных с использованием движка Spark Airflow для загрузки данных и Hadoop для хранения данных.

Какое ПО было использовано?

Платформа исследования рисков (Risk Research Platform, RRP) включает в себя три модуля: Бизнес-глоссарий на базе Informatica Axon, каталог данных на базе Hadoop и Spark Airflow и модуль витрин данных и отчетов на базе Hadoop (инструменты анализа Hadoop Hue, DBeaver, SAS EG).

Первый модуль – бизнес-глоссарий или каталог бизнес-терминов. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.

Второй модуль – каталог регулярно реплицируемых данных из систем источников, данные загружаются из 23 систем-источников, производится очистка данных, производятся логические проверки данных, создаются внутренние идентификаторы. Данные из источников загружаются инкрементально. Для репликации данных используется Spark Airflow, для хранения данных используется Hadoop.

Третий модуль – модуль витрин данных и отчетов. Витрины содержат в себе рассчитанные показатели на основе загруженных данных, с помощью аналитических инструментов платформы специалисты Банка могут работать с витринами для формирования внутренней и регуляторной отчетности. Отчеты банка автоматически создаются по запросу и используются в бизнес-процессах.

Модули системы бесшовно интегрированы между собой и с ключевыми информационными системами (ИС). В результате внедрения платформы банк получил возможность существенно снизить трудоемкость формирования внутренней и внешней отчетности, отказаться от ручного труда при подготовке данных, существенно снизить риск человеческой ошибки при подготовке данных.

Как проходила реализация?

Платформа исследования рисков является одной из ключевых компонент масштабной трехлетней программы Модернизация Платформы Данных, позволяющей централизованно выстроить структуру данных внутри Платформы Данных.

Комплексный подход к внедрению платформы обеспечил автоматизацию наиболее востребованных направлений в области управления и обработки данных Блока Риски:

  • единая терминология, существенно сокращающая время поиска информации сотрудниками Банка, реализована в модуле «Бизнес-глоссарий»;
  • подготовка данных промышленным способом, включающая: инкрементальную регулярную загрузку, очистку данных, сопоставление данных и кросс-сверки, подготовку единых идентификаторов;
  • формирование логического слоя витрин, необходимых для автоматизированного формирования отчетности и работы аналитиков.

Аналитики, специалисты data science и бизнес-эксперты могут с большим доверием относиться к данным, имеют возможность работать с подготовленными, проверенными и очищенными данными, быстро искать расположение нужных данных в логическом слое, использовать результаты автоматизированных отчетов без необходимости предварительного сбора, оценки и подготовки данных в промежуточных системах, поддержки промежуточных трактов данных и обращения к экспертам систем-источников.

Задача формирования отчетности решается с помощью предварительной подготовки данных в слое витрин, далее подготовленные процедуры формируют отчетность в необходимом формате для заказчика или передают данные для интеграции в промышленные BI-инструменты для визуализации отчетности.

В проекте помимо технологической составляющей была выстроена и организована процессная часть концепции управления данными в соответствии с лучшими мировыми практиками Data Governance:

  • Описана предметная область по рискам для реализации регуляторных требований.
  • Осуществлена регламентация процессов по управлению данными Глоссария:
    • ведения бизнес-глоссария;
    • управления метамоделью.
  • Осуществлена регламентация процессов наполнения платформы:
    • модель данных: сущности и связи;
    • тракты данных от источника к платформе;
    • проверки и сопоставление данных.
  • Осуществлена регламентация процессов работы с витринами:
    • ролевая модель;
    • модель данных: сущности и связи;
    • отчеты.
  • Реализована функциональность для работы с витринами и отчетами, а также для формирования дэшбордов и отчетов для промышленных BI-платформ.

С какими сложностями столкнулись в процессе реализации?

Можно отметить несколько моментов:

  1. Разнородные исходные тракты данных для формирования витрин. Наличие промежуточных систем сбора информации. Нерегламентированные процессы ручной подготовки данных.
  2. Разнородные источники данных и платформы интеграции: Informatica PowerCenter, SAS Data Integration (DI), СУБД Oracle, стек технологий Big Data и т.д.
  3. Неунифицированные и противоречивые выходные данные разных источников.
  4. Слабо формализованные требования к сопоставлению и кросс-проверкам.
  5. Отсутствие регламента подготовки данных для всего тракта данных.
  6. Отсутствие механизма расчета инкремента данных.
  7. Отсутствие формализованных требований к финальным витринам и отчетам.
  8. Изменение технологического стека репликации данных для Платформа исследования рисков.
  9. Большое внимание уделено обеспечению требований информационной безопасности.
  10. Все релизы платформы были внедрены полностью удаленно.

Какова география проекта?

Система спроектирована для доступа из всех 66 региональных операционных офисов Банка ВТБ с последующим масштабированием на компании Группы ВТБ. Команда проекта базировалась как в Москве, так и были участники из других городов России. В настоящий момент с системой работают сотрудники из разных городов России.

Голосовать.png

823
Предметная область
Отрасль
Управление