Проект внедрения Системы Управления Данными в Банке ВТБ (ПАО)
- Заказчик:
- ПАО ВТБ
- Руководитель проекта со стороны заказчика
- Поставщик
- DIS Group
- Год завершения проекта
- 2020
- Сроки выполнения проекта
- Февраль, 2019 - Март, 2020
- Масштаб проекта
- 34400 человеко-часов
- Цели
В рамках реализации стратегии цифровой трансформации Банк ВТБ одним из первых в отрасли внедрил комплексное решение — Систему Управления Данными.
Целями проекта внедрения Системы Управления Данными являются: создание универсальной и эффективной платформы для навигации по данным банка и контроля их качества, обеспечения достоверности, непротиворечивости и актуальности данных. Это открывает Банку новые возможности, позволяющие значительно повысить качество и скорость разработки и вывода в эксплуатацию аналитических решений и принятия управленческих решений.
Перед проектом Банк поставил следующие цели:- значительно сократить T2M для новых продуктов и услуг;
- сократить расходы на разработку аналитического функционала;
- оптимизировать процесс управления качеством данных в аналитической платформе и информационных системах;
- развивать партнерскую экосистему;
- ускорить процесс построения моделей сегментирования клиентских данных.
Уникальность проекта
1. Внедрение проекта поддержано с уровня Правления банка2. Утверждена Политика по управлению данными
3. В Банке появилась роль Chief Data Officer и офис CDO
4. Разработана и внедрена функционально-ролевая модель участников процессов по управлению данными и выделена ключевая роль Владелец Данных
5. Бизнес-глоссарий на текущий момент содержит более 7 тыс. согласованных бизнес-терминов. В дальнейшем планируется добавлять более 5 тыс. атрибутов в год.
6. Бизнес-глоссарий доступен всем сотрудникам Банка, а это более 58 тыс. человек
7. Проект в масштабах Банка реализован точно в срок
8. Создан интегрированный Dashboard по качеству данных
9. Самый большой DataLineage содержит более полутора тысяч объектов
10. Использование opensource PostgreSQL и Hadoop для хранения метаданных
11. Подключено 17 систем источников
12. Загружено более 15 млн объектов метаданных
- Использованное ПО
Система Управления Данными включает в себя три модуля: Бизнес-глоссарий на базе Informatica Axon, каталог метаданных на базе Informatica Enterprise Data Catalog (EDC) и модуль контроля и мониторинга качества данных на базе Informatica Data Quality (DQ).
Первый модуль — бизнес-глоссарий или каталог бизнес-терминов – единый для всего банка. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.
По факту внедрения проекта в дальнейшем предполагается использование и масштабирование на группу компаний ВТБ.
Второй модуль — каталог метаданных, т.е. данных о самих данных. Решение показывает жизненный цикл данных, а именно: в каких системах находятся, где они были созданы, полный путь перемещения от таблицы к таблице, от источника к источнику. Используя каталог, теперь можно быстрее проводить анализ и тестирование систем при создании нового функционала, обновлять ИТ-системы и анализировать данные.
Каталог подключен уже к 17 системам-источникам и в него загружено более 15 млн. объектов метаданных. Показатели постоянно увеличиваются за счет подключения новых информационных систем.
Третий модуль — модуль контроля и мониторинга качества данных, помогает специалистам ВТБ получать точную информацию о качестве данных для отчетов, аналитики и принятия управленческих решений.
Репозиторий бизнес-глоссария размещен на СУБД PostgreSQL. Каталог метаданных хранит информацию на кластере Hadoop, что позволяет осуществлять эффективный поиск и масштабировать каталог метаданных для подключения новых информационных систем. Для подключения и загрузки метаданных с Hadoop используется Cloudera Navigator.
Отображение статистики по Системе Управления Данными обеспечивает аналитический инструмент QlikSense.
Модули системы бесшовно интегрированы между собой и с ключевыми информационными системами (ИС). В результате внедрения системы банк получил возможность централизованно управлять данными, упростить процессы взаимодействия ИТ и бизнеса, сфокусироваться на повышении качества данных.
- Сложность реализации
- Разнородные источники метаданных: Informatica PowerCenter, SAS Data Integration (DI), СУБД Oracle, стек технологий Big Data и т.д.
- Карты потоков данных DataLineage формируются как в автоматическом режиме на основе информации из инструментов ETL, а также создаются кастомные DataLineage на основе информации от системных аналитиков. Использование обоих подходов позволяет минимизировать ресурсы на рефакторинг ETL и обеспечить полноту карт потоков данных DataLineage
- Второй релиз платформы сдан в промышленную эксплуатацию в течение первых двух недель режима самоизоляции полностью удаленно
- Большое внимание уделено обеспечению требований информационной безопасности
- Проект изначально реализовывался водопадным методом и в начале 2020 года команда переформатировала работы по принципам гибкой разработки Scrum/Agile
- Описание проекта
Комплексный подход к внедрению платформы обеспечил автоматизацию трех наиболее востребованных направлений в области управления данными:
- единая терминология, существенно сокращающая время поиска информации сотрудниками Банка, реализована в модуле «Бизнес-глоссарий»
- физическая организация данных в ИС Банка, спроецированная на бизнес-терминологию, реализована в модуле «Единый каталог метаданных»
- управление качеством данных в ИС Банка, включенное в контекст и «Бизнес-глоссария», и «Единого каталога метаданных», реализовано в модуле «Управление качеством данных».
Аналитики, специалисты data science и бизнес-эксперты могут с большим доверием относиться к данным, имеют возможность быстро искать расположение нужных данных в информационных системах (ИС) без необходимости обращения к экспертам по этим системам, оценивать их качество получать информацию о владельцах данных и ИТ-специалистах, поддерживающих их жизненный цикл.
Задача оперативного информирования об уровне качества данных решается с помощью визуализации на управленческой панели (Dashboard) по качеству данных, которая позволяет пользователям моментально оценить уровень качества данных в разрезе владельцев данных, информационных систем, бизнес-проверок и терминов бизнес-глоссария. Создание процедур проверки качества данных реализовано в высокотехнологичном инструменте Informatica Data Quality. Реестр проверок качества данных доступен потребителям данных в бизнес-глоссарии.
В проекте помимо технологической составляющей было выстроено и организовано процессная часть концепции управления данными в соответствии с лучшими мировыми практиками Data Governance:
- Осуществлена регламентация базовых процессов по управлению данными:
- ведения бизнес-глоссария
- управления метамоделью
- процессов по анализу и решению инцидентов качества данных используя модуль контроля и мониторинга качества данных
- Для масштабирования использования системы разработаны электронные курсы обучения сценариям использованию бизнес-глоссария, что стало наиболее востребовано в период массовой удаленной работы сотрудников
- Описана предметная область по рискам для реализации регуляторных требований
- Реализована функциональность для Управления бизнес-глоссарием, связью и управлением работой с моделью данных, развитие средств качества данных для мониторинга и повышения качества данных
- При старте проекта утверждено Технико-экономическое обоснование (ТЭО), базирующееся на расчете экономии затрат на фазу анализа и тестирования при создании и развитии систем аналитического контура
- Системы Управления Данными является одной из ключевых компонент масштабной трехлетней программы Модернизация Платформы Данных, позволяющей централизованно выстроить структуру данных внутри Платформы Данных
- Каталог метаданных хранит информацию на кластере Hadoop
- Микросервисная архитектура позволяет с минимальными трудозатратами интегрироваться с корпоративным порталом
- География проекта
- Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ с последующим масштабированием на компании Группы ВТБ
- Команда проекта базировалась преимущественно в Москве, но были участники из других городов России
- В настоящий момент с системой работают сотрудники из разных городов России