Импортозамещение озера данных на платформу Arenadata Hadoop
- Заказчик:
- Банк ВТБ (ПАО)
- Руководитель проекта со стороны заказчика
- Поставщик
- Компания «Дататех» ГК «Иннотех», IBS, ФилИТ.
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- Ноябрь, 2020 - Май, 2023
- Масштаб проекта
- 338400 человеко-часов
- Цели
- Достигнуть полный технологический суверенитет озера данных;
- Сократить T2M ИТ-сервисов для бизнеса за счет унификации и стандартизации процессов разработки и внедрения единых DevOps практик;
- Обеспечить технологическое развитие аналитической платформы Банка без ограничений, связанных с legacy платформой Oracle BDA (Cloudera Hadoop) и другими иностранными компонентами;
- Увеличить вычислительные мощности пользовательского кластера более чем в два раза;
- Снизить общую стоимость владения.
- Результаты
- Полностью достигнут технологический суверенитет озера данных;
- Сокращено T2M ИТ-сервисов для бизнеса за счет унификации и стандартизации процессов разработки и внедрения единых DevOps практик;
- Обеспечено технологическое развитие аналитической платформы Банка без ограничений, связанных с legacy платформой Oracle BDA (Cloudera Hadoop) и другими иностранными компонентами;
- Увеличены вычислительные мощности пользовательского кластера более чем в два раза;
- Снижена общая стоимость владения;
Уникальность проекта
- Один из первых и крупнейших проектов в РФ по миграции с санкционного Oracle BDA (Cloudera Hadoop) на отечественную импортозамещенную платформу Arenadata Hadoop;
- Миграция озера данных объемом более 6 Петабайт данных;
- Физическая миграция оборудования весом несколько тонн между ЦОД для обеспечения надежности и отказоустойчивости;
- Полное построение на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
- Распределенная географически команда проекта по всей России состоящая из более, чем 130 производственных команд;
- При отказе от сотрудничества одного из вендоров в кратчайшие сроки была разработано альтернативное решение – Платформа репликации данных Hadoop Sync. По функциональности на 100% соответствует потребностям Банка;
- Количество потоков, количество объектов, количество транзакций;
- Загрузка данных из новых источников данных, реализованных в рамках цифровой трансформации Банка;
- Миграция и параллельное развитие legacy-решения.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
- Программное обеспечение: Arenadata Hadoop, Spark, HiveZeppelin, Airflow, RabbitMQ, PostgreSQL, FluentD, Grafana, Kibana, Elastic search, ETL framework DDF (собственная разработка), Платформа репликации Hadoop Sync (собственная разработка), OpenShift, DBeaver, RStudio, Juputer Hub.
Оборудование: ПАК Скала-ср/АДХ, Частное облако ВТБ
- Сложность реализации
- C учетом значительного объема решаемых задач и большого количества участников на первый план вышли задачи управления.
Именно координация, информирование и контроль потребовали значительных усилий управленческой команды. Проект был декомпозирован на ряд направлений (по сути - проектов меньшего масштаба) и представлял собой проектную программу.Так же усложнили задачу отличия целевого технологического стека от legacy, что потребовало от производственных команд ускоренного погружения в относительно новую технологическую реализацию и породило немало трудностей, для решения которых применялись весьма нестандартные подходы.
Большое количество взаимосвязей задач загрузки данных и функционала витрин данных так же потребовали непростых компромиссов и технических решений.
Внесла свой негативный вклад пандемия COVID-19, снижавшая производительность команд непредсказуемым образом. В некоторых командах одномоментные потери сотрудников превышали 30-40%.
Ход проекта продемонстрировал важность вопросов управления данными и архитектуры данных. Так, «точечные» изменения типов данных или их структуры порождали существенный объем изменений на стороне витрин данных и их потребителей. Без должного контроля, такого рода изменения могут привести к значимому негативному влиянию на график работ и на объем бюджета.
Кроме того, проект миграции осуществлялся в условиях происходящей в Банке глобальной трансформации, что повышало риски влияния на график работ со стороны других проектов и активностей.
- Описание проекта
- В рамках проекта было реализовано:
- Развертывание программно-аппаратного комплекса Data Analysing Processing Platform (DAPP) на базе Arenadata Hadoop, включающего в себя основной кластер регламентных загрузок и расчетов, DR кластер, ИФТ и DEV среды;
- Перенос функционала ETL потоков загрузок и подключено к DAPP более 100 информационных систем-источников данных, как внутрибанковских, так и внешних;
- Миграция аналитического функционала, включая более 300 витрин данных для различных направлений;
- Миграция аналитического функционала искусственного интеллекта и необходимых для этого данных;
- Миграция пользовательского функционала, включая более 30 пользовательских песочниц, 8 прикладных BI и аналитических систем
- Переобучение пользователей работе с новыми импортозамещенными компонентами;
- Санкционное ПО WanDisco для репликации данных замещено на отечественное ПО HadoopSync собственной разработки.
- География проекта
Система спроектирована для доступна из всех 66 региональных операционных офисах Банка ВТБ
В настоящий момент с системой работают сотрудники из разных городов России.
Над проектом работала сводная команда из более 130 производственных команд, обеспечив более 250 поставок, а общее количество участников с различным уровнем вовлечения в проекте превысило 1 700 человек.- Дополнительные презентации:
- Озеро Данных.pdf