Проект внедрения Платформы исследования рисков (Risk Research Platform, RRP)
- Заказчик:
- Банк ВТБ (ПАО)
- Руководитель проекта со стороны заказчика
- Поставщик
- Иннотех, DIS Group
- Год завершения проекта
- 2021
- Сроки выполнения проекта
- Июнь, 2020 - Июнь, 2021
- Масштаб проекта
- 15808 человеко-часов
- Цели
- Разработка платформы для интегрированного анализа рисков, включая кредитный и рыночные риски, с использованием технологий больших данных для целей управления рисками и капиталом, а также расчета RORAC.Ключевые цели проекта:
- Созданы витрины данных и результаты расчетов калькуляторов рисков (кредитный и рыночные риски) реплицируются в Hadoop, синхронизируются на уровне сущностей и доступны для интегрированного анализа;
- Наполнен бизнес-глоссарий с описанием каждой витрины, сущностей, атрибутов и различий между ними, контролями и целевыми уровнями качества данных;
- Проведена индустриализация процессов анализа данных и расчета риск-показателей, внедрения изменений в методологию, процедур актуализации данных;
- Реализованы контроли качества данных, в т.ч. кросс-сверки между витринами платформы;
- Разработаны и регламентированы промышленные источники данных из витрин рисков.
Уникальность проекта
Внедрение проекта поддержано с уровня Правления банка и реализовано единое окно данных для Блока Риски.Внедрена функционально-ролевая модель участников процессов по работе с данными Блока Риски.
Реализованы промышленные потоки данных для регулярного наполнения Платформы и алгоритмы очистки и сопоставления данных, пришедших из различных источников. Проверяется непротиворечивость, консистентность, полнота данных.
Реализован логический слой витрин, с раздельным доступом для владельцев и потребителей данных платформы, включая отчеты на базе моделей AQR и RORAC. Отчеты интегрированы в бизнес-процессы Банка.
Наполнен бизнес-глоссарий, содержащий более 20 тыс. согласованных бизнес-терминов.
Проект в масштабах Банка реализован точно в срок.
Подключено 23 системы источников и загружено более 6 Тб данных с использованием движка Spark Airflow для загрузки данных и Hadoop для хранения данных.
- Использованное ПО
Первый модуль — бизнес-глоссарий или каталог бизнес-терминов на базе Informatica Axon. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.
Первый модуль — бизнес-глоссарий или каталог бизнес-терминов. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.
Второй модуль — каталог регулярно реплицируемых данных из систем источников, данные загружаются из 23 систем-источников, производится очистка данных, производятся логические проверки данных, создаются внутренние идентификаторы. Данные из источников загружаются инкрементально. Для репликации данных используется Spark Airflow, для хранения данных используется Hadoop.
Третий модуль — модуль витрин данных и отчетов. Витрины содержат в себе рассчитанные показатели на основе загруженных данных, с помощью аналитических инструментов платформы специалисты Банка могут работать с витринами для формирования внутренней и регуляторной отчетности. Отчеты банка автоматически формируются по запросу и используются в бизнес-процессах.
Модули системы бесшовно интегрированы между собой и с ключевыми информационными системами (ИС). В результате внедрения платформы банк получил возможность существенно снизить трудоемкость формирования внутренний и внешней отчетности, отказаться от ручного труда при подготовке данных, существенно снизить риск человеческой ошибки при подготовке данных
- Сложность реализации
- Разнородные исходные тракты данных для формирования витрин. Наличие промежуточных систем сбора информации. Нерегламентированные процессы ручной подготовки данных.
- Разнородные источники данных и платформы интеграции: Informatica PowerCenter, SAS Data Integration (DI), СУБД Oracle, стек технологий Big Data и т.д.
- Неунифицированные и противоречивые выходные данные разных источников.
- Слабо формализованные требования к сопоставлению и кросспроверкам.
- Отсутствие регламента подготовки данных для всего тракта данных.
- Отсутствие механизма расчета инкремента данных.
- Отсутствие формализованных требований к финальным витринам и отчетом.
- Изменение технологического стека репликации данных для Платформа исследования рисков
- Большое внимание уделено обеспечению требований информационной безопасности
- Все релизы платформы были внедрены полностью удаленно.
- Описание проекта
Комплексный подход к внедрению платформы обеспечил автоматизацию наиболее востребованных направлений в области управления и обработки данных Блока Риски:
- единая терминология, существенно сокращающая время поиска информации сотрудниками Банка, реализована в модуле «Бизнес-глоссарий»
- подготовка данных промышленным способом, включающая: инкрементальную регулярную загрузку, очистку данных, сопоставление данных и кросс-сверки, подготовку единых идентификаторов
- формирование логического слоя витрин, необходимых для автоматизированного формирования отчетности и работы аналитиков.
Аналитики, специалисты data science и бизнес-эксперты могут с большим доверием относиться к данным, имеют возможность работать с подготовленными, проверенными и очищенными данными, быстро искать расположение нужных данных в логическом слое, использовать результаты автоматизированных отчетов, без необходимости предварительного сбора, оценки и подготовки данных в промежуточных системах, поддержки промежуточных трактов данных и обращения к экспертам систем-источников.
Задача формирования отчетности решается с помощью предварительной подготовки данных в слое витрин, далее подготовленные процедуры формируют отчетность в необходимом формате для заказчика, или передают данные для интеграции в промышленные BI-инструменты для визуализации отчетности.В проекте помимо технологической составляющей было выстроено и организовано процессная часть концепции управления данными в соответствии с лучшими мировыми практиками Data Governance:
- Описана предметная область по рискам для реализации регуляторных требований
- Осуществлена регламентация процессов по управлению данными Глоссария:
- ведения бизнес-глоссария
- управления метамоделью
- Осуществлена регламентация процессов наполнения платформы:
- модель данных: сущности и связи
- тракты данных от источника к платформе
- проверки и сопоставление данных
- Осуществлена регламентация процессов работы с витринами:
- ролевая модель
- модель данных: сущности и связи
- отчеты
- Реализована функциональность для работы с витринами и отчетами, а также для формирования дэшбордов и отчетов для промышленных BI-платформ
Платформа исследования рисков является одной из ключевых компонент масштабной трехлетней программы Модернизация Платформы Данных, позволяющей централизованно выстроить структуру данных внутри Платформы Данных
- География проекта
- Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ с последующим масштабированием на компании Группы ВТБ
- Команда проекта базировалась как в Москве, так и были участники из других городов России
- В настоящий момент с системой работают сотрудники из разных городов России