Импортозамещение витрин данных для ответов на запросы Федеральных Органов Исполнительной Власти (ФОИВ)
- Заказчик:
- ПАО ВТБ
- Руководитель проекта со стороны заказчика
- Поставщик
- ГК «Иннотех»
- Год завершения проекта
- 2024
- Сроки выполнения проекта
- июнь, 2022 — октябрь, 2024
- Масштаб проекта
- 116736 человеко-часов
- Цели
-
Развитие конвейера предоставления ответов в федеральные органы исполнительной власти (ФОИВ), развитие слоя источника данных для предоставления ответов на запросы ФОИВ.
-
Осуществление перехода на целевую архитектуру в рамках цифровой трансформации банка;
-
Улучшение регламента формирования витрин и повышение надежности системы предоставления выписок
-
Увеличение вычислительных мощностей обработки запросов на кластере Arenadata DB (ADB) Витрин ФОИВ более чем в 6 раз
-
Минимизация дополнительной нагрузки на системы источников данных
-
В рамках проекта необходимо было внедрить объекты на разных уровнях источников, озер данных, корпоративных хранилищ, а также создать сервис для обработки точечных запросов к витринам данным
-
Обеспечение хранения данных для предоставления выписок государственным органам с 2017 года
-
- Результаты
-
Миграция аналитического функционала, включая 22 витрины данных для различных бизнес-направлений;
-
В эти витрины были загружены данные, начиная с 2017 года по более чем 1300 атрибутам, что делает их одним из крупнейших источников данных в Банке.
-
Более 400 млрд записей в 67 витринных сущностях, а также более 70 ТБ хранимых данных, ежедневное обновление до 11 ТБ
-
Уникальность проекта
-
Потребовалось проанализировать множество источников данных, разработать собственную модель данных для создания витрин с единой моделью и глубиной информации, достаточной для бизнес-процесса по предоставлению ответов ФОИВ
-
Создание уникального компонента по агрегации и распределению нагрузки по запросам пользователей на предоставление выписок «Обработчика запросов» на базе технологии Spark Structured Streaming
-
Проектирование и построение витрин данных, а также ETL-процессов по их наполнению и обновлению на импортозамещенных технологиях: Arenadata Hadoop (ADH), Arenadata DB (ADB)
-
Загрузка данных из новых источников данных, реализованных в рамках цифровой трансформации банка
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
Кластер Arenadata DB, Arenadata Hadoop, Kafka, Airflow, Spark, HIVE, adb_spark_connector.
Отдельно стоит выделить обработчик запросов для формирования выписки по клиенту (Spark Structured Streaming), который был создан с нуля командой проекта.
- Сложность реализации
-
Одновременная смена технологической платформы СУБД, смена модели детального слоя хранилища и частичная смена источников данных;
-
Перенос данных на целевую платформу Arenadata DB;
-
Разработка собственного решения по обработке поступающих запросов к витринам данных от конвейера обработки запросов, поступающих в банк.
-
Реинжиниринг решения на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
-
Распределенная географически команда проекта по всей России и распределенная команда проекта по стримам: разработка витрин, разработка ядра, качество данных, ролевой доступ к данным, аналитически справочники и поддержка.
-
Миграция и параллельное развитие legacy-решения
-
Совместная проектная деятельность множества команд развития платформы данных, а также привлечение к проекту десятков подразделений хранилищ данных и АБС
-
- Описание проекта
-
Развертывание программно-аппаратного комплекса на базе Arenadata DB, включающего в себя основной кластер регламентных загрузок и расчетов, DR кластер, ИФТ и DEV среды;
-
Кардинально переработаны и внедрены витрины данных на отечественной платформе Arenadata DB, позволяющие формировать в ежедневном режиме слой витрин для последующего формирования выписок на них.
-
В модель новых витрин загружаются данные из новых источников данных, реализованных в рамках цифровой трансформации банка;
-
По результатам внедрения практически заново разработаны витрины данных на импортозамещенной платформе ArenadataDB, а также обработчик запросов, удалось повысить качество данных и скорость предоставления ответов на запросы, что положительно сказывается на всех бизнес-процессах по предоставлению ответов на запросы ФОИВов.
-
Для реализации проекта были созданы хранилища данных, так называемые «витрины данных», содержащие информацию об операционной деятельности, клиентских взаимодействиях ФЛ и ЮЛ клиентов банка.
-
Улучшение качества данных, поступаемых в витрины ФОИВ, за счет обогащения банковскими архивами, а также данными из оперативных слоев ODS
-
Миграция импортозамещенной СУБД Arenadata DB с нецелевой ОС RedHat на целевую импортозамещенную ОС Astra Linux
-
- География проекта
Проект покрывает все клиентские операции банка ВТБ и присоединенных к нему банков.
Система спроектирована для использования всех центров обработки запросов от ФОИВ на территории РФ.
В настоящий момент с системой работают сотрудники из разных городов России.