Проект внедрения Системы Управления Данными в Банке ВТБ (ПАО)

Заказчик
ПАО ВТБ
Руководитель проекта со стороны заказчика
ИТ-поставщик
DIS Group
Год завершения проекта
2020
Сроки выполнения проекта
Февраль, 2019 - Март, 2020
Масштаб проекта
34400 человеко-часов
Цели

В рамках реализации стратегии цифровой трансформации Банк ВТБ одним из первых в отрасли внедрил комплексное решение — Систему Управления Данными.


Целями проекта внедрения Системы Управления Данными являются: создание универсальной и эффективной платформы для навигации по данным банка и контроля их качества, обеспечения достоверности, непротиворечивости и актуальности данных. Это открывает Банку новые возможности, позволяющие значительно повысить качество и скорость разработки и вывода в эксплуатацию аналитических решений и принятия управленческих решений.


Перед проектом Банк поставил следующие цели:
  • значительно сократить T2M для новых продуктов и услуг;
  • сократить расходы на разработку аналитического функционала;
  • оптимизировать процесс управления качеством данных в аналитической платформе и информационных системах;
  • развивать партнерскую экосистему;
  • ускорить процесс построения моделей сегментирования клиентских данных.

Уникальность проекта

1. Внедрение проекта поддержано с уровня Правления банка 2. Утверждена Политика по управлению данными 3. В Банке появилась роль Chief Data Officer и офис CDO 4. Разработана и внедрена функционально-ролевая модель участников процессов по управлению данными и выделена ключевая роль Владелец Данных 5. Бизнес-глоссарий на текущий момент содержит более 7 тыс. согласованных бизнес-терминов. В дальнейшем планируется добавлять более 5 тыс. атрибутов в год. 6. Бизнес-глоссарий доступен всем сотрудникам Банка, а это более 58 тыс. человек 7. Проект в масштабах Банка реализован точно в срок 8. Создан интегрированный Dashboard по качеству данных 9. Самый большой DataLineage содержит более полутора тысяч объектов 10. Использование opensource PostgreSQL и Hadoop для хранения метаданных 11. Подключено 17 систем источников 12. Загружено более 15 млн объектов метаданных
Использованное ПО

Система Управления Данными включает в себя три модуля: Бизнес-глоссарий на базе Informatica Axon, каталог метаданных на базе Informatica Enterprise Data Catalog (EDC) и модуль контроля и мониторинга качества данных на базе Informatica Data Quality (DQ).


Первый модуль — бизнес-глоссарий или каталог бизнес-терминов – единый для всего банка. Бизнес-термины связаны с каталогом метаданных, что позволяет обеспечить сквозную навигацию и поиск бизнес-терминов и метаданных.

По факту внедрения проекта в дальнейшем предполагается использование и масштабирование на группу компаний ВТБ.


Второй модуль — каталог метаданных, т.е. данных о самих данных. Решение показывает жизненный цикл данных, а именно: в каких системах находятся, где они были созданы, полный путь перемещения от таблицы к таблице, от источника к источнику. Используя каталог, теперь можно быстрее проводить анализ и тестирование систем при создании нового функционала, обновлять ИТ-системы и анализировать данные.

Каталог подключен уже к 17 системам-источникам и в него загружено более 15 млн. объектов метаданных. Показатели постоянно увеличиваются за счет подключения новых информационных систем.


Третий модуль — модуль контроля и мониторинга качества данных, помогает специалистам ВТБ получать точную информацию о качестве данных для отчетов, аналитики и принятия управленческих решений.


Репозиторий бизнес-глоссария размещен на СУБД PostgreSQL. Каталог метаданных хранит информацию на кластере Hadoop, что позволяет осуществлять эффективный поиск и масштабировать каталог метаданных для подключения новых информационных систем. Для подключения и загрузки метаданных с Hadoop используется Cloudera Navigator.

Отображение статистики по Системе Управления Данными обеспечивает аналитический инструмент QlikSense.


Модули системы бесшовно интегрированы между собой и с ключевыми информационными системами (ИС). В результате внедрения системы банк получил возможность централизованно управлять данными, упростить процессы взаимодействия ИТ и бизнеса, сфокусироваться на повышении качества данных.

Сложность реализации
  1. Разнородные источники метаданных: Informatica PowerCenter, SAS Data Integration (DI), СУБД Oracle, стек технологий Big Data и т.д.
  2. Карты потоков данных DataLineage формируются как в автоматическом режиме на основе информации из инструментов ETL, а также создаются кастомные DataLineage на основе информации от системных аналитиков. Использование обоих подходов позволяет минимизировать ресурсы на рефакторинг ETL и обеспечить полноту карт потоков данных DataLineage
  3. Второй релиз платформы сдан в промышленную эксплуатацию в течение первых двух недель режима самоизоляции полностью удаленно
  4. Большое внимание уделено обеспечению требований информационной безопасности
  5. Проект изначально реализовывался водопадным методом и в начале 2020 года команда переформатировала работы по принципам гибкой разработки Scrum/Agile

Описание проекта

Комплексный подход к внедрению платформы обеспечил автоматизацию трех наиболее востребованных направлений в области управления данными:

  • единая терминология, существенно сокращающая время поиска информации сотрудниками Банка, реализована в модуле «Бизнес-глоссарий»
  • физическая организация данных в ИС Банка, спроецированная на бизнес-терминологию, реализована в модуле «Единый каталог метаданных»
  • управление качеством данных в ИС Банка, включенное в контекст и «Бизнес-глоссария», и «Единого каталога метаданных», реализовано в модуле «Управление качеством данных».

Аналитики, специалисты data science и бизнес-эксперты могут с большим доверием относиться к данным, имеют возможность быстро искать расположение нужных данных в информационных системах (ИС) без необходимости обращения к экспертам по этим системам, оценивать их качество получать информацию о владельцах данных и ИТ-специалистах, поддерживающих их жизненный цикл.


Задача оперативного информирования об уровне качества данных решается с помощью визуализации на управленческой панели (Dashboard) по качеству данных, которая позволяет пользователям моментально оценить уровень качества данных в разрезе владельцев данных, информационных систем, бизнес-проверок и терминов бизнес-глоссария. Создание процедур проверки качества данных реализовано в высокотехнологичном инструменте Informatica Data Quality. Реестр проверок качества данных доступен потребителям данных в бизнес-глоссарии.


В проекте помимо технологической составляющей было выстроено и организовано процессная часть концепции управления данными в соответствии с лучшими мировыми практиками Data Governance:

  1. Осуществлена регламентация базовых процессов по управлению данными:
    1. ведения бизнес-глоссария
    2. управления метамоделью
    3. процессов по анализу и решению инцидентов качества данных используя модуль контроля и мониторинга качества данных
  2. Для масштабирования использования системы разработаны электронные курсы обучения сценариям использованию бизнес-глоссария, что стало наиболее востребовано в период массовой удаленной работы сотрудников
  3. Описана предметная область по рискам для реализации регуляторных требований
  4. Реализована функциональность для Управления бизнес-глоссарием, связью и управлением работой с моделью данных, развитие средств качества данных для мониторинга и повышения качества данных
  5. При старте проекта утверждено Технико-экономическое обоснование (ТЭО), базирующееся на расчете экономии затрат на фазу анализа и тестирования при создании и развитии систем аналитического контура
  6. Системы Управления Данными является одной из ключевых компонент масштабной трехлетней программы Модернизация Платформы Данных, позволяющей централизованно выстроить структуру данных внутри Платформы Данных
  7. Каталог метаданных хранит информацию на кластере Hadoop
  8. Микросервисная архитектура позволяет с минимальными трудозатратами интегрироваться с корпоративным порталом

География проекта
  1. Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ с последующим масштабированием на компании Группы ВТБ
  2. Команда проекта базировалась преимущественно в Москве, но были участники из других городов России
  3. В настоящий момент с системой работают сотрудники из разных городов России

Коментарии: 50
  • Станислав Тарасов
    Рейтинг: 144
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    25.11.2020 11:07

    Добрый день.

    есть несколько вопросов

    1. Как обосновывалось необходимость внедрения Data Governance менеджменту банка?
    2. Насколько внедренное решение покрывает подразделения банка?
    3. Оправдались ли ожидания по эффекту от внедрения?

    • Дмитрий Алексеев Станислав
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      27.11.2020 13:22

      Станислав, добрый день.

      1. Инициатива по внедрению Data Governance стартовала в рамках программы трансформации банка. Для обоснования целесообразности ее внедрения была проведена оценка зрелости процессов управления данными, выявлены ключевые боли бизнес-подразделений, связанные с данными: длительность сроков поиска информации, высокие трудозатраты на сверку данных, отсутствие прозрачности в зависимостях между данными, процессами и информационными системами, нечеткая ответственность за данные, и произведена оценка экономического эффекта от внедрения системы управления данными. На основании проведенной диагностики и представленного положительного бизнес-кейса решение о необходимости внедрения инициативы Data Governance было поддержано членами Правления на уровне Комитета по трансформации. А также, понимая ценность данных в процессах банка, развитие функции Data Governance включено в Стратегию Банка 2019-2022 как приоритетное направление.

      2. Внедренное решение покрывает все линии бизнеса Банка. К системе имеют доступ все сотрудники Банка. Безусловно наполнение бизнес-глоссария, каталога метаданных и создание проверок качества данных проводится поэтапно с учетом приоритетов от бизнес-заказчиков.

      3. Да, первые результаты проекта – положительные. Экономический эффект от внедрения был рассчитан на 3 года нарастающим итогом, т.к. по мере наполнения системы управления данными информацией эффект от ускорения поиска данных и сокращения трудозатрат на фазы анализа и доработки информационных систем увеличивается пропорционально.

      • Станислав Тарасов Дмитрий
        Рейтинг: 144
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        01.12.2020 12:22

        Дмитрий, спасибо за развернутый ответ.

        по первому вопросу: Вы использовали какие-то общедоступные методики для оценки или собственные?

        • Дмитрий Алексеев Станислав
          Рейтинг: 700
          Банк ВТБ (ПАО)
          Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
          04.12.2020 16:06

          Станислав, добрый день.
          Оценка экономического эффекта от внедрения системы управления данными произведена в соответствии со стандартами финансового департамента, используемыми при старте проектов в Банке.
          Оценка обоснования целесообразности внедрения включает экономический эффект от: сокращения сроков поиска информации, снижение трудозатрат на сверку данных, сокращение сроков на бизнес и системный анализ.

  • Андрей Чуйко
    Рейтинг: 234
    РСХБ-Страхование жизни, ООО
    Генеральный директор
    25.11.2020 18:52

    1. Удалось ли выработать единую стратегию управления качеством данных на уровне компании?

    2. Планируется ли использование решения для управления операционными рисками в том числе в рамках выполнения требований ЦБ 716-п?

    3. Кто основные пользователи системы: бизнес или ИТ?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      27.11.2020 13:28

      1. Да, удалось выработать единую стратегию управления данными и их качеством на уровне Банка. Разработана единая функционально-ролевая модель участников процессов управления данными с четким закреплением ответственности и обязанностей, в том числе в процессах постановки требований к качеству данных, пороговых значений качества данных, критериев оценки качества данных и взаимодействия подразделений при анализе и решении инцидентов качества данных. Единая стратегия закреплена нормативными актами Банка: «Политика по управлению данными», «Правила по обеспечению качества данных» и «Методические указания по взаимодействию подразделений при анализе и решении инцидентов качества данных», которые определяют развитие процессов, связанных с управлением и повышением качества данных.

      2. Да, планируется использовать Систему Управления Данными на платформе Informatica Data Governance для управления операционными рисками в части покрытия требований пп. 8.7.4-8.7.6 Главы 8. Управление риском информационных систем Положения ЦБ РФ 716-п.

      3. Бизнес и ИТ – основные пользователи в равной степени. Бизнес наиболее активно использует бизнес-глоссарий, а пользователи от ИТ используют все три модуля: бизнес-глоссарий, каталог метаданных и модуль контроля и мониторинга качества данных.

  • Андрей Лабутин
    Рейтинг: 79
    ЗиД, ОАО
    Начальник отдела ИТ
    26.11.2020 10:30

    Здравствуйте, Виктор.

    >Третий модуль — модуль контроля и мониторинга качества данных

    Можно сильно больше информации по данному модулю?

    Под данными Вы понимаете не только данные системы, но и метаданные объектов хранения и разработки, т.е. кодов базы и клиента?

    При таком взгляде на одних авторизациях на объекты, бизнес-правилах и зависимостях в исходных кодах можно "зубы сломать"..

    В этой связи не могли бы Вы раскрыть полноту информации для разных уровней пользования:
    - руководитель или линейный специалист - простой пользователь?
    - ИТ разработчик фронт, энд?
    - Data Scientist ?
    - сами разработчики "Третьего модуля"?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      27.11.2020 13:29

      Андрей, добрый день.

      Да, постараюсь больше дать информации по модулю контроля и мониторинга качества данных.

      Мы четко разделяем понятие данные и метаданные объектов хранения и разработки.

      Модуль контроля и мониторинга качества данных предназначен для работы непосредственно с данными. Функционал данного модуля позволяет фиксировать требования к качеству данных и заказчиков проверок качества данных, устанавливать правила и алгоритмы проверок качества данных, указывать пороговые значения качества данных для каждого элемента данных, также осуществлять мониторинг состояния данных путем отчетов (dashboarding) на основе информации о произведенных проверках.

      Для работы с метаданными предназначен второй модуль «каталог метаданных», и здесь Вы правы, для авторизации на объекты инвестировано много ресурсов и времени на согласование. Построение зависимостей между объектами и построение потоков данных (DataLineage), также очень интересная, но и сложная задача. Чтобы обеспечить их автоматическое построение необходимо создание стандартов разработки. Первый стандарт разработки уже утвержден, что позволяет строить новые карты потоков данных в автоматическом режиме.

      Пользователи получают доступ к следующей информации:

      - руководители или линейные специалисты – простые пользователи: имеют доступ к бизнес-глоссарию для поиска информации о терминах, их физическому расположению в информационных системах, требованиях к их качеству, закрепленных ответственных за каждый атрибут, а также к dashboards о состоянии качества данных в информационных системах, распределении данных по владельцам, динамики наполнения бизнес-глоссария информацией о данных;

      - ИТ разработчики получают доступ к бизнес-терминам, которых на текущий момент уже более 7 тысяч, физической модели данных информационных систем, картам потоков данных (DataLineage). Дополнительно у бизнес-терминов есть бизнес-владельцы, что позволяет быстро найти ответственного в Банке и, при необходимости, получить дополнительные консультации;

      - DataScientist получает аналогичный ИТ-разработчикам объем сервисов, но также востребована функция поиска данных. Это особенно актуально, кода в каталоге метаданных загружено уже более 10 млн. объектов метаданных;

      - Разработчики проверок качества данных в третьем модуле также используют, как и обычные ИТ разработчики в описании выше, всю функциональность бизнес-глоссария и каталога метаданных.

  • Андрей Ерохин
    Рейтинг: 30
    Спредл, ООО
    СIO
    02.12.2020 18:29

    Добрый день, Дмитрий. Есть ли регулярная интегральная оценка состояния данных в банке (доступность, полнота, качество, актуальность и иные критерии и составляющие оценки)? Как это находит отражение в интегрированном Dashboard по качеству данных?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      04.12.2020 15:58

      Андрей, добрый день. Да. Процессами управления качеством данных предусмотрена регулярная оценка качества данных, которая предполагает как замер показателей качества данных на атомарном уровне (атрибут/ поле/ система), так на агрегированном уровне (интегральные показатели по сущности/ классу данных). Правила проверок качества данных фиксируются в Едином реестре проверок качества данных, где также фиксируется регулярность запуска замера качества данных.

      В стандартном Dashboards Informatica предусмотрена визуализация итогов оценки качества данных по основным критериям: точность, полнота, согласованность, достоверность и своевременность. Дополнительно существуют детализированные форматы отчетности по требованиям потребителей данных (таблицы/ BI).

  • Андрей Галкин
    Рейтинг: 35
    ООО МУНРЕЙКЕР
    CMO
    02.12.2020 19:23

    Добрый день, Дмитрий. "Как найти данные?" - стандартный вопрос от бизнеса. Какие инструменты, процессы, алгоритмы поиска, self-сервис, используются в вашем банке? Как связаны между собой первый модуль «бизнес-глоссарий» и второй модуль «каталог метаданных»?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      04.12.2020 15:59

      Андрей, добрый день.

      Да, «как найти данные» один из наиболее часто задаваемых вопросов от бизнеса. Для ответа на этот вопрос бизнес-пользователи используют два инструмента: бизнес-глоссарий и каталог метаданных. Бизнес-глоссарий для поиска бизнес-терминов и проверок качества данных. Через связку бизнес-глоссария и каталога метаданных пользователи получили возможность просмотра карты потоков данных и физических моделей данных относящихся к найденном бизнес-термину.

      Помимо этого, каталог метаданных позволяет осуществлять поиск по техническим метаданных. Оба инструмента обеспечивают self-сервис бизнес-пользователями для поиска данных.

      Для новых пользователей самый простой алгоритм - это вбить в поисковую строку примерное описание термина, получить большое количество совпадений, далее уточнить запрос и получить требуемый результат. Если проводить аналогию – это как Yandex только для поиска данных

      Первый модуль «бизнес-глоссарий» и второй модуль «каталог метаданных» связаны между собой на уровне привязки бизнес-терминов к физической модели данных в каталоге метаданных. Это позволяет через физическую модель находить карты потоков данных относящихся к конкретным бизнес-терминам.

  • Андрей Ерохин
    Рейтинг: 30
    Спредл, ООО
    СIO
    03.12.2020 09:11

    Еще такой вопрос: в уникальности проекта указано «4. Разработана и внедрена функционально-ролевая модель участников процессов по управлению данными и выделена ключевая роль Владелец Данных». По каким по каким критериям искали / выделяли этих людей? Какими полномочиями они должны обладать?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      10.12.2020 19:42

      Андрей, добрый день.

      В соответствии с Положением о политике в области управления данными Владельцем данных у нас является структурное подразделение Банка (ответственным за блоки данных соответственно руководитель подразделения). Для поиска и определения Владельцев данных разработана специальная методика, которая учитывает ответственность и полномочия на пересечении 3х направлений: типы данных/ процессы/ системы. Так, например, для расчетных атрибутов владельцем будет то подразделение, которое в Банке отвечает за методологию расчета показателя. Для первичных атрибутов – владелец – подразделение, отвечающее за мастер-систему, в которой первично объект данных появляется в рамках определенного бизнес-процесса.

      Также для каждой роли существует описание требований к уровню компетенций и полномочий.

      Компетенций и полномочий должно быть достаточно для выполнения следующих ключевых функций:

      - Формирование определения атрибутов данных, требований к составу, точности, полноте, своевременности, целостности, безопасности данных, владельцем которых является;

      - Определение правил контроля качества данных, включая описание автоматизированных процедур проверки качества данных в каждой ИТ-системе жизненного цикла данных, регламент их проведения, критериев существенности влияния качества данных на процессы;

      - Осуществление контроля за качеством данных, которыми владеет;

      - Обеспечение соответствия данных, владельцем которых он является, требованиям законодательства и надзорных органов;

      - Постановка требований ДИТ и контроль реализации доработок в ИТ системах для обеспечения данными потребителей данных;

  • Андрей Ерохин
    Рейтинг: 30
    Спредл, ООО
    СIO
    15.12.2020 16:42

    Как была организована проектная команда внедрения системы управления данными и как она трансформировалась после запуска системы в промышленную эксплуатацию? И если было сформировано несколько команд, то как происходит их взаимодействие? Как обеспечивается синхронизация работ между командами?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      29.12.2020 18:18

      Андрей, добрый день.
      Проектная команда на этапе внедрения была организована по принципам ведения водопадных проектов. Ядро команды было сформировано из высококвалифицированных сотрудников из нескольких подразделений (Офис CDO и ИТ) привлеченных на постоянное время на период проекта. Помимо этого, более 50 сотрудников различных подразделений привлекались к работам над проектом с частичной вовлеченностью (это представители Бизнес-линий, отчетных подразделений, инфраструктурных команд).
      После запуска системы в промышленную эксплуатацию проектная команда была трансформирована в три профильных операционных команды меньшего размера. Первая команда отвечает за наполнение содержанием всех компонент Data Governance, вторая команда - за развитие функциональности и третья - за поддержку всех компонент Informatica, включая Data Governance.

    • Дмитрий Омельченко Андрей
      Рейтинг: 11
      ПАО Банк ВТБ
      Ит-лидер команды
      29.12.2020 19:38

      Добрый день! Да, было сформировано три команды, которые находятся в одном стриме и тесно взаимодействуют. Наполнение и развитие Data Governance работают по Agile, что позволяет обеспечить высокую скорость развития и наполнения Data Governance.

      Команда поддержки платформы Informatica занимается решением инцидентов и оказанием консультаций по работе платформы, поступающих от любой из команд и бизнес-пользователей.

      Офис CDO производит постановку требований на развитие системы управления данными и отвечает за методологическую составляющую, выполняет задачи по внедрению использования системы в производственных процессах банка, проводит обучения работе с Бизнес-глоссарием.

    • Станислав Дмитриев Андрей
      Рейтинг: 33
      ПАО ВТБ
      Главный аналитик
      29.12.2020 23:31

      Андрей, добрый день! Касательно синхронизации - между командами происходит взаимодействие в соответствии с Agile – принципами (через открытые backlog’и команд, участием одного представителя в Agile-церемониях смежных команд​ при планировании работ команд), управление приоритетами задач команды производится при участии представителей бизнес-пользователей от каждой бизнес-линии.

  • Андрей Галкин
    Рейтинг: 35
    ООО МУНРЕЙКЕР
    CMO
    16.12.2020 11:49

    1. Дмитрий, какие версии программных продуктов используете и какие ключевые функции модулей бизнес-глоссарий, каталога метаданных и модуля контроля и мониторинга качества данных востребованы пользователями? Как все модули интегрированы между собой? На сколько быстро Банк апробирует и устанавливает новые версии программных продуктов?

    2. И еще один вопрос, интересует, насколько полно и точно строится карты потоков данных (Data Lineage)? Какие типы источников разбираются автоматически? Достраивается ли Data Lineage вручную? Можно ли посмотреть Data Lineage от первоначального источника до конечного приемника. Например, в витрине данных?

    • Дмитрий Алексеев Андрей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      30.12.2020 16:35

      Андрей, добрый день.

      1. В настоящий момент используются следующие версии: бизнес-глоссарий Аxon – версия 7.0, каталог метаданных EDC - версия 10.2.2 hot fix 1, и модуль контроля качества данных IDQ – версия 10.2. Судя по специфике запросов на консультации в службу сопровождения, наиболее востребованы функции поиска объектов в Фасете Глоссарий, а также функции поиска проверок по качеству данных в Фасете Качество данных. Также очень востребована функция поиска объектов типа Table в Каталоге метаданных и построения Data Lineage ETL процессов банка

      2. Построение потоков данных (Data Lineage) зависит от типа разбираемого источника и качества маппингов, которые необходимо разобрать. Если маппинги написаны согласно рекомендациям Informatica, то разбор производится с точностью до каждого поля данных и он позволяет увидеть все трансформации.

      Каталог метаданных (EDC) позволяет считывать метаданные и разбирать процедуры\etl-маппинги для большого количества источников, таких как Oracle, Teradata, Hadoop, Informatica Power Center и т.д. Полная информация есть в документации на сайте Informatica. А с помощью нового расширения advanced scanner возможности по парсингу и детализации потоков данных увеличиваются.

      Построение Datalineage вручную возможно при наличии файла, в котором проставлены зависимости типа источник-приемник. Этот файл преобразуется в специальный формат и загружается в каталог метаданных (EDC).
      Здесь важно отметить, что лучше сразу предусмотреть процесс обновления, т.к. при любом изменении в потоках данных надо будет вручную актуализировать информацию.

      Да, возможно посмотреть Data Lineage от первоначального источника до конечного приемника. Для этого необходимо: 1. Подключить системы-источники к каталогу метаданных (EDC)
      2 Подключить ETL-инструменты к каталогу метаданных
      3. Загрузить метаданные из систем-источников и все ETL-трансформации между всеми промежуточными объектами.

    • Станислав Дмитриев Андрей
      Рейтинг: 33
      ПАО ВТБ
      Главный аналитик
      30.12.2020 20:29

      Добрый день! Все модули Системы Управления данными интегрированы между собой штатными средствами Informatica: бизнес-глоссарий имеет подключение к обьектам EDC через специализированный сервис от Informatica, и бизнес-глоссарий и модуль контроля и мониторинга качества данных связаны между собой с помощью специализированного DQ-агента. Данные интеграционные сервисы позволяют всем трем компонентам системы иметь сквозной доступ к объектам друг друга.

    • Дмитрий Омельченко Андрей
      Рейтинг: 11
      ПАО Банк ВТБ
      Ит-лидер команды
      30.12.2020 20:32

      Андрей, добрый день! Банк достаточно быстро апробирует и устанавливает новые версии программных продуктов, учитывая использование при развитии продуктов, Agile-практики. В среднем, на установку в тестовый контур и развернутое тестирование новых версий уходит 3-4 недели, еще около 2х недель - на передачу в промышленную эксплуатацию, установку на промышленный контур и приемочное тестирование.

      Отдельный вопрос – это время на изучение возможностей новых версий программных продуктов и принятия решения о целесообразности новых версий с учетом необходимости обеспечить доступность и стабильность системы для пользователей

  • Андрей Галкин
    Рейтинг: 35
    ООО МУНРЕЙКЕР
    CMO
    16.12.2020 11:50

    Удален

  • Иван Новосёлов
    Рейтинг: 25
    МФТИ
    Старший исследователь
    30.12.2020 13:52

    Добрый день, в описании проекта представлены как проприетарное ПО, а также используются opensource программное обеспечение PostgreSQL и Hadoop для хранения метаданных. Подскажите, пожалуйста, насколько трудоемка поддержка PostgreSQL и Hadoop?

    • Дмитрий Алексеев Иван
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2021 16:17

      СУБД PostgreSQL в части трудоемкости поддержки практически не отличается от, скажем, той же Oracle. Да, сложнее пока найти специалистов по PostgreSQL, их меньше на рынке. Но с учетом тренда на переход российских компаний на open-source – решения их становится все больше и больше, так что разницы в поддержке практически нет. Сам Hadoop в поддержке не очень сложен, основная сложность заключается в наличии большого количества нод HDFS, но для крупной системы большое количество нод – скорее правило, чем исключение.

  • Илья Титов
    Рейтинг: 45
    КБ Модульбанк, АО
    Управляющий директор
    30.12.2020 16:29

    Добрый день, Дмитрий!

    1. Расскажите, пожалуйста, про инфраструктуру решения: Размещен ли проект on-premises, или в облачной инфраструктуре? Если облака вы еще не используете, то есть ли в планах пилотирование облачных решений под задачи управления данными?

    2. И вот ещё что хотелось уточнить. На какой из продуктов и технологий ложится основная нагрузка по выполнению проверок качества данных: База данных или сервера Informatica? При реализации проверок качества данных на ресурсах хранилища данных, как правило, необходимо балансировать распределение нагрузки между собственно ETL-процессами и выполнением проверок.

    • Дмитрий Алексеев Илья
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2021 16:18

      1. Инфраструктура решения стандартная для подобного рода проектов – весь проект размещен on-premises – таково было решение Архитектурного комитета банка. Пока пилотирование и использование облачных решений для системы управления данными не планируется.

      2. Основная нагрузка по выполнению проверок ложится на сервера Информатика. На БД хранилищ происходят только селекты и запись строк, содержащих ошибки. Да, абсолютно верно, необходимо балансировать эту нагрузку, в нашем случае запуск проверок качества данных и ETL потоки разделены по времени.

  • Илья Титов
    Рейтинг: 45
    КБ Модульбанк, АО
    Управляющий директор
    30.12.2020 16:36

    Удален

  • Аллан Пиренов
    Рейтинг: 32
    AllanKo
    Директор по ИТ
    30.12.2020 16:37

    1. Подскажите, пожалуйста, какие возможности по кастомизации дает Бизнес-Глоссарий для самостоятельной настройки проектной командой? Плюс какие новые возможности наиболее востребованы бизнес-пользователями в бизнес-глоссарии Informatica Axon 7.0?

    2. В одном из ответов Вы упомянули о новом расширении advanced scanner и увеличении возможности по парсингу и детализации потоков данных (Data Lineage). Расскажите, пожалуйста, чуть подробнее для каких источников метаданных планируете применить в первую очередь?

    • Дмитрий Алексеев Аллан
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2021 16:19

      1. Кастомизация в основном связана с настройкой интерфейса, в том числе каждый пользователь может выбрать, какие столбцы в представлении он хочет видеть, а какие лучше скрыть.

      Axon 7.0 мы установили относительно недавно и сейчас проводим исследование по использованию новых функций. Пока наиболее перспективными представляется опция Segmentation и часть функций, влияющих на связь с каталогом данных, а также функционал отчетности для анализа и мониторинга работы с бизнес-глоссарием.

      2. В первую очередь планируем парсить пакеты Oracle в рамках Корпоративного Информационного Хранилища, которые используются для расчета финансовых витрин – это пожелание одного из ключевых заказчиков. По результатам первой очереди сделаем оценку точности формирования карт потоков данных (Data Lineage) и определим приоритеты парсинга и построения Data Lineage.

  • Аллан Пиренов
    Рейтинг: 32
    AllanKo
    Директор по ИТ
    30.12.2020 16:37

    Удален

  • Сергей Шеленцов
    Рейтинг: 25
    ПАО ВымпелКом
    Руководитель службы интеграции информации и операционной отчетности
    30.12.2020 16:58

    Здравствуйте!

    1. В настоящий момент тема микросервисной архитектуры очень популярна, но как она помогла внедрению проекта и каким образом используется или планируется к использованию? Если можно, покажите, пожалуйста, на практических примерах.

    2. За счет чего удалось проект изначально вести водопадным методом и в начале 2020 года переформатировать работы по принципам гибкой разработки Scum/Agile и при этом достичь поставленных перед проектом целей? Какое количество согласования внутри Банка пришлось пройти чтобы переформатировать проект?

    3. На сколько система управления данными требовательна к оборудованию? Можно ли начать внедрение с минимально допустимой конфигурации и затем масштабировать по мере роста числа пользователей и развития функционала? Был ли уже практический опыт сайзинга и миграции на новое оборудование?

    4. Скажите, пожалуйста, каким количеством сотрудников и с какой загрузкой удалось наполнить бизнес-глоссарий более 7 тыс. согласованными бизнес-терминами? И сколько в дальнейшем сотрудников будут работать над ежегодным добавлением более 5 тыс. атрибутов?

    5. Какие требования к доступности системы управления данными заявлены от бизнеса на этапе внедрения? Как они сейчас соблюдаются и накоплена ли уже статистика по времени доступности системы с момента внедрения в промышленную эксплуатацию?

    Спасибо.

    • Дмитрий Алексеев Сергей
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2021 16:20

      1. Микросервисная архитектура позволяет сократить сроки внедрения и кастомизации решения. Есть четкое понимание какой компонент за что отвечает. Гибкость в использовании. Возможность использовать те компоненты, которые необходимы. Также возможность подключения внешних систем на уровне микросервисов. Из практических примеров, с помощью микросервисов быстро разработали удобный интегрированный поисковый движок по всем модулям системы управления данными, который планируется интегрировать с другими информационными системами Банка.

      2. Прежде всего это мотивированная на результат команда проекта. Все члены проектной команды были заинтересованы применить принципы гибкой разработк Scrum/Agile на практике и при этом подтвердить все взятые на себя ранее обязательства по проектным целям.

      Нам удалось избежать пересогласования проекта, т.к. изначальные цели были подтверждены и затем успешно достигнуты, а переход на Agile был введен в Банке повсеместно для большинства проектов как централизованная инициатива по изменению производственного процесса.

      3. Требования системы управления данными к оборудованию стандартны для систем с «тонким клиентом», но, все, конечно, зависит от количества одновременных сессий. Начинать с минимально допустимой конфигурации нам вендор не советовал, порекомендовал сделать небольшой запас на планируемый рост числа подключений, и оказался прав.

      Да, опыт миграции был, по результатам первых месяцев работы с системой мы делали сайзинг на планируемый рост числа пользователей и успешно смигрировали на новую инфраструктуру

      4. Первичное наполнение Бизнес-глоссария производилось в рамках проекта внедрения. Всего 3 сотрудника занимались вводом информации в бизнес-глоссарий. По факту вывода в эксплуатацию Бизнес-глоссария и внедрения федеративной модели управления данными представители Владельцев данных самостоятельно осуществляют ввод информации. В каждом из бизнес-подразделений выделяются от 1 до 3х сотрудников, ответственных за ведение информации в Бизнес-глоссарии, в зависимости от объема данных во владении.

      Также мы сделали использование и пополнение Бизнес-глоссария частью нового производственного процесса таким образом, что при разработке и/или модификации информационных систем заполняется документация, содержащая раздел по требованию к данным и требованиям к качеству данных, где фиксируется маппинг атрибутов на бизнес-глоссарий и выделяется только дельта для внесения новых сущностей и атрибутов. Это позволит поддерживать Бизнес-глоссарий в актуальном состоянии и не отставать от меняющегося ИТ-ландшафта.

      5. На этапе старта проекта были заявлены требования по 98%-ной доступности, как системе класса Business operational и они четко соблюдаются, даже с небольшим превышением. Накопленный интегрированный индекс доступности системы с момента старта составляет 98,2%.

  • Сергей Шеленцов
    Рейтинг: 25
    ПАО ВымпелКом
    Руководитель службы интеграции информации и операционной отчетности
    30.12.2020 16:59

    Удален

  • Сергей Шеленцов
    Рейтинг: 25
    ПАО ВымпелКом
    Руководитель службы интеграции информации и операционной отчетности
    30.12.2020 16:59

    Удален

  • Сергей Шеленцов
    Рейтинг: 25
    ПАО ВымпелКом
    Руководитель службы интеграции информации и операционной отчетности
    30.12.2020 17:00

    Удален

  • Сергей Шеленцов
    Рейтинг: 25
    ПАО ВымпелКом
    Руководитель службы интеграции информации и операционной отчетности
    30.12.2020 17:02

    Удален

  • Иван Новосёлов
    Рейтинг: 25
    МФТИ
    Старший исследователь
    31.12.2020 16:09

    1. В описании проекта Вы указали «Отображение статистики по Системе Управления Данными обеспечивает аналитический инструмент QlikSense». Подскажите, пожалуйста, как интегрирован QlikSense и продукты Informatica и какие показатели статистики отображаются?

    2. И ещё один вопрос. В вашем проекте «Задача оперативного информирования об уровне качества данных решается с помощью визуализации на управленческой панели (Dashboard) по качеству данных». Подскажите, пожалуйста, на базе чего реализованы управленческие панели (Dashboard) и какие ключевые показатели доступны бизнес-пользователям?

    • Дмитрий Алексеев Иван
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      05.01.2021 15:00

      1. На основе метаданных Системы Управления Данными созданы представления, которые агрегируют в себе информацию по количеству бизнес-терминов, полноте заполнения карточек атрибутов, статистике распределения данных между владельцами данных, рабочим статусам. На основе этих представлений в Qlik Sense созданы dashboard-ы, которые визуализируют статистические показатели Системы Управления Данными с учётом исторических изменений, т.е. мы можем проследить изменения в системе, а также просмотреть состояние системы на интересующую нас дату в прошлом. Пользователи с помощью одной заявки получают доступ к группе в Active Directory, для которой настроены права доступа одновременно к Системе Управления Данными и к определенной области аналитического инструмента Qlik Sense в соответствии с утвержденной ролевой моделью.

      2. Наши Dashboard реализованы на продуктах QlikSence и QlikView для интеграции c которыми созданы специальные кастомные объекты СУБД PosgreSQL. Пользователям в удобном интерактивном графическом виде доступна как агрегированная информация по состоянию данных в ИС в разрезе хранилищ, так и детальная информация по группам контролируемых параметров качества данных – 101 форма, сделки, счета и пр.

  • Иван Новосёлов
    Рейтинг: 25
    МФТИ
    Старший исследователь
    31.12.2020 16:11

    Удален

  • Илья Титов
    Рейтинг: 45
    КБ Модульбанк, АО
    Управляющий директор
    31.12.2020 17:33

    1. В описании проекта указано, что «Проект в масштабах Банка реализован точно в срок» что вызывает уважение и тем более в масштабах всего Банка. За счет чего удалось реализовать проект точно в срок и удалось ли при этом достичь поставленных изначально перед проектом целей?

    2. Достаточно часто пользователям тяжело адаптироваться в новых инструментах и это вдвойне сложно, когда приходится погружаться в новую тему управления данными. Что Вы делаете чтобы упростить или сгладить первые шаги бизнес-пользователями при работе с системой управления данными?

    3. И ещё расскажите, пожалуйста, как организован процесс вовлечения бизнес-пользователей в процессы управления данными и есть ли какие-либо внутренние курсы обучения инструментам управления данными или Вы пользуетесь только внешними курсами обучения?

    • Дмитрий Алексеев Илья
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      05.01.2021 14:58

      1. Добрый день, действительно проект был реализован точно в срок с полным покрытием целей и задач проекта.

      Прежде всего, это стало возможным благодаря четкому планированию работ, наличию компетентной команды с опытом практической реализации подобных проектов ранее, вовлечению представителей Бизнес-подразделений в командную работу, а также благодаря поддержке top-managementа банка, что подчеркивало важность и стратегическую ценность инициативы по управлению данными в Банке.

      2. Для плавного ввода инструментария по управлению данными в повсеместное использование мы изначально вовлекли представителей бизнес-подразделений в проект реализации, чтобы они имели возможность ознакомиться с функциональностью во время внедрения и могли влиять на изменения в информационной системе. Затем социализировали Бизнес-глоссарий через различные каналы коммуникации: были проведены бизнес-завтраки – внутренние конференции, обучения пользователей, проводятся демо-сессии по конкретным use-cases потребителей.

      Мы используем клиентоориентированный подход. К каждой демонстрации мы подходим индивидуально, стараясь заинтересовать пользователя, показывая, как можно быстро и просто решить его реальную задачу/кейс с помощью системы. Благодаря такому подходу мы получаем достоверную обратную связь по работе системы от наших пользователей, которая помогает нам развивать нашу систему.

      3. Бизнес-пользователи в процессах управления данными выступают в нескольких ролях.
      В качестве потребителей данных они определяют критерии качества данных для целей использования данных в своих бизнес-процессах, формулируют алгоритмы проверок качества используемых ими данных.
      В качестве владельцев данных представители бизнес-подразделений дают определения терминов/ атрибутов для внесения их в бизнес-глоссарий, аккумулируют все требования потребителей данных к качеству и устанавливают общие и частные правила проверки качества данных, формат представления итогов проверок и визуализацию dashboards для отображения результата замера качества данных, а также участвуют в процессах анализа и решения инцидентов качества данных как эксперты-методологи в части данных, находящихся во владении.
      Вовлечение бизнес-пользователей происходит путем назначения их на роли разработанной Офисом CDO функционально-ролевой модели участников процессов управления данными, у каждой роли существуют полномочия и обязанности, прописанные в Положении о Политике в области управления данными. Также создана Рабочая группа по управлению данными - коллегиальный орган, где участвуют представители бизнес-линий и функциональных линий для обсуждения и выработки оптимальных для Банка решений и процессов в области управления данными, происходит социализация основных нововведений, поднимаются проблемы и вопросы потребителей данных, связанные с работой с данными.
      Для обучения сотрудников Банка правилам и процессам управления данными, а также работе с Бизнес-глоссарием Офисом CDO созданы курсы обучения (очные и дистанционные), в 2019 году проводились очные обучения с интерактивными бизнес-играми, в 2020 году специализированные курсы размещены на Корпоративном портале обучения и доступны любому сотруднику Банка для самостоятельного прохождения с тестами для закрепления материалов.

  • Илья Титов
    Рейтинг: 45
    КБ Модульбанк, АО
    Управляющий директор
    31.12.2020 17:35

    Удален

  • Илья Титов
    Рейтинг: 45
    КБ Модульбанк, АО
    Управляющий директор
    31.12.2020 17:38

    Удален

  • Михаил Хасин
    Рейтинг: 343
    ВТБ, ПАО
    Зам Директора Департамента ДИТА
    02.01.2021 13:02

    Действительно, один из крупнейших проектов по данной теме.
    Интересно было бы услышать как в дальнейшем будет работать процесс управления инцидентами, связанными с качеством данных, их приоритизацией и устранением. В какие сроки планируется создать карту потоков данных и для каждой сущности определить систему-источник, которая и будет той мастер-системой, отвечающей за выполнение критериев качества данных по данной сущности.

    • Дмитрий Алексеев Михаил
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      05.01.2021 14:47

      Процесс управления инцидентами регламентирован в Банке в специальных методических указаниях по взаимодействию подразделений при анализе и решении инцидентов качества данных. Приоритизация осуществляется согласно общим критериям критичности каждого инцидента, как и регламентные сроки решения инцидентов, регистрация инцидентов с типом «качество данных» производится в общей системе управления инцидентами HP SM. Инциденты регистрируются как пользователями напрямую, так и сотрудниками Службы качества данных по факту анализа итогов автоматизированных проверок качества данных.
      Что касается Карты потоков данных, то процесс ее создания для каждой сущности встраиваем в цикл нового производственного процесса, который предполагает на этапе формирования бизнес-требований фиксацию требований к данным и их качеству, затем на этапе функциональной архитектуры и архитектуры интеграции систем отрисовку потоков данных с идентификацией точек возникновения данных (ввода или генерации), точек передачи данных (включая трансформацию) до конечного использования. Динамика построения полной Карты потоков данных зависит от скорости и приоритетов работ каждой команды, отвечающей за развитие информационных систем.

  • Максим Часовиков
    Рейтинг: 1020
    МГУ имени М.В.Ломоносова, Центр цифровой экономики
    Заместитель руководителя службы управления проектами
    06.01.2021 19:06

    Добрый день! Я правильно понимаю, что теперь, с созданием бизнес-глоассария, в вашей компании созданы условия для того, что бы все термены и семантические единицы понимались единообразно всеми сотрудниками? по крайней мере во всех внутренних нормативных документах? Если это так, то это хороший шаг на пути построения семантического дерева компании и создания своей внутренней онтологии.

    • Дмитрий Алексеев Максим
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2021 16:16

      Действительно, Вы все верно подметили, что в Банке созданы условия для единообразного понимания всех терминов всеми сотрудниками. Но нам много еще предстоит что сделать. В настоящий момент, бизнес-глоссарий содержит более 7 тыс. согласованных бизнес-терминов. В дальнейшем планируется добавлять более 5 тыс. атрибутов в год. Это огромная работа в масштабах всего Банка по расширению бизнес-глоссария и его поддержанию в актуальном состоянии.

  • Дмитрий Турчановский
    Рейтинг: 575
    Зарубежнефть
    Заместитель начальника Управления информационных технологий
    07.01.2021 00:19

    Очень интересный проект. Есть один важный вопрос, не распространяются ли директивы по переходу на отечественное ПО на ваш гос. Банк, как удалось доказать необходимость внедрения именно зарубежного ПО? С какими другими платформами сравнивали?

    • Дмитрий Алексеев Дмитрий
      Рейтинг: 700
      Банк ВТБ (ПАО)
      Заместитель руководителя Департамента Технологического Развития Общебанковских Систем
      08.01.2021 16:15

      Хороший вопрос. Прежде всего, проведенное Банком ВТБ в 2007 году первичное публичное размещение (IPO) акций положило начало новому этапу развития банка. Благодаря одному из крупнейших в мире банковских IPO ВТБ смог привлечь в капитал почти 8 млрд долларов. Таким образом, ВТБ превратился из крупного государственного банка в кредитный институт мирового уровня, акции которого свободно обращаются на российском и международном фондовых рынках.
      Сравнение с другими платформами и обоснование внедрения зарубежного программного обеспечения являлись одними из ключевых элементов выбора платформы. При выборе платформы руководствовались материалами Gartner, информацией из открытых источников и непосредственными контактами с Банками, внедрившими платформы по управлению данными.
      Платформа управления данными Informatica наиболее полно соответствует требованиям Банка. При наличии зрелого решения, соответствующего требованиям Банка, выбор отдается в пользу отечественного программного обеспечения.
      Более того Банк активно использует и внедряет отечественное и открытое программное обеспечение. Например, PostgreSQL, Hadoop и Arenadata DB. Отличный пример их использования – это проект по миграции системы подготовки отчетности банка ВТБ с Oracle SuperCluster на российское решение Arenadata DB, представленный в секции отечественная разработка https://globalcio.ru/live/projects/11011/

Год
Предметная область
Отрасль
Управление