Проект внедрения Платформы исследования рисков (Risk Research Platform, RRP)

Заказчик
Банк ВТБ (ПАО)
Руководитель проекта со стороны заказчика
ИТ-поставщик
Иннотех, DIS Group
Год завершения проекта
2021
Сроки выполнения проекта
Июнь, 2020 - Июнь, 2021
Масштаб проекта
15808 человеко-часов
Цели
Разработка платформы для интегрированного анализа рисков, включая кредитный и рыночные риски, с использованием технологий больших данных для целей управления рисками и капиталом, а также расчета RORAC.
Ключевые цели проекта:
  • Созданы витрины данных и результаты расчетов калькуляторов рисков (кредитный и рыночные риски) реплицируются в Hadoop, синхронизируются на уровне сущностей и доступны для интегрированного анализа;
  • Наполнен бизнес-глоссарий с описанием каждой витрины, сущностей, атрибутов и различий между ними, контролями и целевыми уровнями качества данных;
  • Проведена индустриализация процессов анализа данных и расчета риск-показателей, внедрения изменений в методологию, процедур актуализации данных;
  • Реализованы контроли качества данных, в т.ч. кросс-сверки между витринами платформы;
  • Разработаны и регламентированы промышленные источники данных из витрин рисков.

Уникальность проекта

Внедрение проекта поддержано с уровня Правления банка и реализовано единое окно данных для Блока Риски.

Внедрена функционально-ролевая модель участников процессов по работе с данными Блока Риски.

Реализованы промышленные потоки данных для регулярного наполнения Платформы и алгоритмы очистки и сопоставления данных, пришедших из различных источников. Проверяется непротиворечивость, консистентность, полнота данных.

Реализован логический слой витрин, с раздельным доступом для владельцев и потребителей данных платформы, включая отчеты на базе моделей AQR и RORAC. Отчеты интегрированы в бизнес-процессы Банка.

Наполнен бизнес-глоссарий, содержащий более 20 тыс. согласованных бизнес-терминов.

Проект в масштабах Банка реализован точно в срок.

Подключено 23 системы источников и загружено более 6 Тб данных с использованием движка Spark Airflow для загрузки данных и Hadoop для хранения данных.
Использованное ПО

Первый модуль — бизнес-глоссарий или каталог бизнес-терминов на базе Informatica Axon. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.

Первый модуль — бизнес-глоссарий или каталог бизнес-терминов. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.

Второй модуль — каталог регулярно реплицируемых данных из систем источников, данные загружаются из 23 систем-источников, производится очистка данных, производятся логические проверки данных, создаются внутренние идентификаторы. Данные из источников загружаются инкрементально. Для репликации данных используется Spark Airflow, для хранения данных используется Hadoop.

Третий модуль — модуль витрин данных и отчетов. Витрины содержат в себе рассчитанные показатели на основе загруженных данных, с помощью аналитических инструментов платформы специалисты Банка могут работать с витринами для формирования внутренней и регуляторной отчетности. Отчеты банка автоматически формируются по запросу и используются в бизнес-процессах.

Модули системы бесшовно интегрированы между собой и с ключевыми информационными системами (ИС). В результате внедрения платформы банк получил возможность существенно снизить трудоемкость формирования внутренний и внешней отчетности, отказаться от ручного труда при подготовке данных, существенно снизить риск человеческой ошибки при подготовке данных

Сложность реализации

  1. Разнородные исходные тракты данных для формирования витрин. Наличие промежуточных систем сбора информации. Нерегламентированные процессы ручной подготовки данных.
  2. Разнородные источники данных и платформы интеграции: Informatica PowerCenter, SAS Data Integration (DI), СУБД Oracle, стек технологий Big Data и т.д.
  3. Неунифицированные и противоречивые выходные данные разных источников.
  4. Слабо формализованные требования к сопоставлению и кросспроверкам.
  5. Отсутствие регламента подготовки данных для всего тракта данных.
  6. Отсутствие механизма расчета инкремента данных.
  7. Отсутствие формализованных требований к финальным витринам и отчетом.
  8. Изменение технологического стека репликации данных для Платформа исследования рисков
  9. Большое внимание уделено обеспечению требований информационной безопасности
  10. Все релизы платформы были внедрены полностью удаленно.


Описание проекта

Комплексный подход к внедрению платформы обеспечил автоматизацию наиболее востребованных направлений в области управления и обработки данных Блока Риски:

  • единая терминология, существенно сокращающая время поиска информации сотрудниками Банка, реализована в модуле «Бизнес-глоссарий»
  • подготовка данных промышленным способом, включающая: инкрементальную регулярную загрузку, очистку данных, сопоставление данных и кросс-сверки, подготовку единых идентификаторов
  • формирование логического слоя витрин, необходимых для автоматизированного формирования отчетности и работы аналитиков.

Аналитики, специалисты data science и бизнес-эксперты могут с большим доверием относиться к данным, имеют возможность работать с подготовленными, проверенными и очищенными данными, быстро искать расположение нужных данных в логическом слое, использовать результаты автоматизированных отчетов, без необходимости предварительного сбора, оценки и подготовки данных в промежуточных системах, поддержки промежуточных трактов данных и обращения к экспертам систем-источников.

Задача формирования отчетности решается с помощью предварительной подготовки данных в слое витрин, далее подготовленные процедуры формируют отчетность в необходимом формате для заказчика, или передают данные для интеграции в промышленные BI-инструменты для визуализации отчетности.

В проекте помимо технологической составляющей было выстроено и организовано процессная часть концепции управления данными в соответствии с лучшими мировыми практиками Data Governance:

  • Описана предметная область по рискам для реализации регуляторных требований
  • Осуществлена регламентация процессов по управлению данными Глоссария:
    • ведения бизнес-глоссария
    • управления метамоделью
  • Осуществлена регламентация процессов наполнения платформы:
    • модель данных: сущности и связи
    • тракты данных от источника к платформе
    • проверки и сопоставление данных
  • Осуществлена регламентация процессов работы с витринами:
    • ролевая модель
    • модель данных: сущности и связи
    • отчеты
  • Реализована функциональность для работы с витринами и отчетами, а также для формирования дэшбордов и отчетов для промышленных BI-платформ

Платформа исследования рисков является одной из ключевых компонент масштабной трехлетней программы Модернизация Платформы Данных, позволяющей централизованно выстроить структуру данных внутри Платформы Данных

География проекта

  1. Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ с последующим масштабированием на компании Группы ВТБ
  2. Команда проекта базировалась как в Москве, так и были участники из других городов России
  3. В настоящий момент с системой работают сотрудники из разных городов России

Коментарии: 4
  • Виктор Булгаков
    Рейтинг: 175
    ООО Gridfore
    Директор по развитию бизнеса
    08.01.2022 17:00

    Мощный, интересный проект, поздравляю! Интересно было бы узнать, как сейчас и в дальнейшем будет работать процесс управления инцидентами, связанными с качеством данных, их приоритезацией и решением?
    Удалось ли найти возможность каким-либо образом эффективно управлять/влиять на качество данных в системах-источниках?

    • Дмитрий Алексеев Виктор
      Рейтинг: 1493
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2022 22:20

      Виктор, спасибо за добрые слова в адрес проекта и хороший вопрос.
      В настоящий момент выстроены процессы инцидент менеджмента по качеству данных, т.е. на случай отклонения есть четкая постановка процесса обеспечивающая оперативное решение инцидентов по качеству данных. Это выгодно отличается от простого запуска проверок качества данных.
      Все вместе это обеспечивает бизнес-заказчикам требуемый уровень качества данных.
      По ряду систем источников удалось договориться и влиять, а точнее повышать качество данных на уровне систем источников.
      Как показывает практика, обычно значительно дешевле повысить качество данных на уровне системы источника, чем ловить инциденты на этапах загрузки и формирования отчетов.

  • Виктор Булгаков
    Рейтинг: 175
    ООО Gridfore
    Директор по развитию бизнеса
    08.01.2022 17:03

    Каким образом Банку, по сути государственному, удалось обосновать необходимость и возможность использования зарубежного ПО?
    Каким образом удалось продвинулись в области импортозамещения?

    • Дмитрий Алексеев Виктор
      Рейтинг: 1493
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2022 22:11

      Прежде всего, проведенное Банком ВТБ в 2007 году первичное публичное размещение (IPO) акций положило начало новому этапу развития банка. Благодаря одному из крупнейших в мире банковских IPO ВТБ смог привлечь в капитал почти 8 млрд долларов.
      Таким образом, ВТБ превратился из крупного государственного банка в кредитный институт мирового уровня, акции которого свободно обращаются на российском и международном фондовых рынках.

      Сравнение с другими платформами и обоснование внедрения зарубежного программного обеспечения являлись одними из ключевых элементов выбора платформы. При выборе платформы руководствовались материалами Gartner, информацией из открытых источников и непосредственными контактами с Банками, внедрившими платформы.

      Платформа управления данными Informatica наиболее полно соответствует требованиям Банка. При наличии зрелого решения, соответствующего требованиям Банка, выбор отдается в пользу отечественного программного обеспечения.

      Более того Банк активно использует и внедряет отечественное и открытое программное обеспечение. Например, PostgreSQL, Arenadata Hadoop и Arenadata DB. Отличный пример их использования – это проект по миграции системы подготовки отчетности банка ВТБ с Oracle SuperCluster на российское решение Arenadata DB. Проект победил годом ранее в секции отечественная разработка https://globalcio.ru/live/projects/11011/

      Помимо этого, идет миграция кластера больших данных на российское ПО Arenadata Hadoop и внедряется Целевое Единое Хранилище Банка ВТБ на российском ПО Arenadata DB.

      Поэтому, там, где это целесообразно и необходимо Банк уже активно использует открытое и российское ПО.

Год
Предметная область
Отрасль
Управление