Импортозамещение озера данных на платформу Arenadata Hadoop

Заказчик:

Банк ВТБ (ПАО)

Руководитель проекта со стороны заказчика

Дмитрий Алексеев

CDO

Поставщик

Компания «Дататех» ГК «Иннотех», IBS, ФилИТ.

Год завершения проекта

2023

Сроки выполнения проекта

Ноябрь, 2020 - Май, 2023

Масштаб проекта

338400 человеко-часов

Цели

Достигнуть полный технологический суверенитет озера данных;
Сократить T2M ИТ-сервисов для бизнеса за счет унификации и стандартизации процессов разработки и внедрения единых DevOps практик;
Обеспечить технологическое развитие аналитической платформы Банка без ограничений, связанных с legacy платформой Oracle BDA (Cloudera Hadoop) и другими иностранными компонентами;
Увеличить вычислительные мощности пользовательского кластера более чем в два раза;
Снизить общую стоимость владения.

Результаты

Полностью достигнут технологический суверенитет озера данных;
Сокращено T2M ИТ-сервисов для бизнеса за счет унификации и стандартизации процессов разработки и внедрения единых DevOps практик;
Обеспечено технологическое развитие аналитической платформы Банка без ограничений, связанных с legacy платформой Oracle BDA (Cloudera Hadoop) и другими иностранными компонентами;
Увеличены вычислительные мощности пользовательского кластера более чем в два раза;
Снижена общая стоимость владения;

Уникальность проекта

Один из первых и крупнейших проектов в РФ по миграции с санкционного Oracle BDA (Cloudera Hadoop) на отечественную импортозамещенную платформу Arenadata Hadoop;
Миграция озера данных объемом более 6 Петабайт данных;
Физическая миграция оборудования весом несколько тонн между ЦОД для обеспечения надежности и отказоустойчивости;
Полное построение на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
Распределенная географически команда проекта по всей России состоящая из более, чем 130 производственных команд;
При отказе от сотрудничества одного из вендоров в кратчайшие сроки была разработано альтернативное решение – Платформа репликации данных Hadoop Sync. По функциональности на 100% соответствует потребностям Банка;
Количество потоков, количество объектов, количество транзакций;
Загрузка данных из новых источников данных, реализованных в рамках цифровой трансформации Банка;
Миграция и параллельное развитие legacy-решения.

Использованное ПО

Программное обеспечение: Arenadata Hadoop, Spark, HiveZeppelin, Airflow, RabbitMQ, PostgreSQL, FluentD, Grafana, Kibana, Elastic search, ETL framework DDF (собственная разработка), Платформа репликации Hadoop Sync (собственная разработка), OpenShift, DBeaver, RStudio, Juputer Hub.

Оборудование: ПАК Скала-ср/АДХ, Частное облако ВТБ

Сложность реализации

C учетом значительного объема решаемых задач и большого количества участников на первый план вышли задачи управления.

Именно координация, информирование и контроль потребовали значительных усилий управленческой команды. Проект был декомпозирован на ряд направлений (по сути - проектов меньшего масштаба) и представлял собой проектную программу.

Так же усложнили задачу отличия целевого технологического стека от legacy, что потребовало от производственных команд ускоренного погружения в относительно новую технологическую реализацию и породило немало трудностей, для решения которых применялись весьма нестандартные подходы.
Большое количество взаимосвязей задач загрузки данных и функционала витрин данных так же потребовали непростых компромиссов и технических решений.
Внесла свой негативный вклад пандемия COVID-19, снижавшая производительность команд непредсказуемым образом. В некоторых командах одномоментные потери сотрудников превышали 30-40%.
Ход проекта продемонстрировал важность вопросов управления данными и архитектуры данных. Так, «точечные» изменения типов данных или их структуры порождали существенный объем изменений на стороне витрин данных и их потребителей. Без должного контроля, такого рода изменения могут привести к значимому негативному влиянию на график работ и на объем бюджета.
Кроме того, проект миграции осуществлялся в условиях происходящей в Банке глобальной трансформации, что повышало риски влияния на график работ со стороны других проектов и активностей.

Описание проекта

В рамках проекта было реализовано:

Развертывание программно-аппаратного комплекса Data Analysing Processing Platform (DAPP) на базе Arenadata Hadoop, включающего в себя основной кластер регламентных загрузок и расчетов, DR кластер, ИФТ и DEV среды;
Перенос функционала ETL потоков загрузок и подключено к DAPP более 100 информационных систем-источников данных, как внутрибанковских, так и внешних;
Миграция аналитического функционала, включая более 300 витрин данных для различных направлений;
Миграция аналитического функционала искусственного интеллекта и необходимых для этого данных;
Миграция пользовательского функционала, включая более 30 пользовательских песочниц, 8 прикладных BI и аналитических систем
Переобучение пользователей работе с новыми импортозамещенными компонентами;
Санкционное ПО WanDisco для репликации данных замещено на отечественное ПО HadoopSync собственной разработки.

География проекта

Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ

В настоящий момент с системой работают сотрудники из разных городов России.

Над проектом работала сводная команда из более 130 производственных команд, обеспечив более 250 поставок, а общее количество участников с различным уровнем вовлечения в проекте превысило 1 700 человек.

Дополнительные презентации:

Озеро Данных.pdf