Создание единой платформы Data Research Platform (DRP) в РСХБ-Интех
- Заказчик:
- РСХБ
- Руководитель проекта со стороны заказчика
- Поставщик
- РСХБ.Цифра
- Год завершения проекта
- 2025
- Сроки выполнения проекта
- сентябрь, 2024 — сентябрь, 2025
- Масштаб проекта
- 2000 человеко-часов
- Цели
Команда РСХБ-Интех (дочерняя компания РСХБ) реализовала проект по созданию большой песочницы на Greenplum для всех аналитиков одного из крупнейших банков в России. Команда приняла решение объединить все системы в единый кластер на базе Greenplum от Arenadata, используя Airflow и PXF для ETL-процессов. Проект включал миграцию порядка 10 000 таблиц из различных источников, таких как АСРМ,Озеро, Хранилище, пользовательских песочниц и других. В ходе работы эксперты столкнулись с множеством технических и организационных вызовов: отсутствием документации, частой сменой команд, желанием перенести все «как есть».
-
В результате проекта в РСХБ была создана единая платформа с централизованным управлением данными, едиными стандартами загрузки и доступа. Команда разработала новую ролевую модель, механизмы загрузки данных, интеграции с источниками и ежедневно загружает и обновляет более 2500 объектов. Ключевые достижения проекта — единая система сопровождения, полное описание объектов, централизованное место для анализа данных и управления как с IT, так и с бизнес-перспективы.
-
Песочницей пользуется более 500 пользователей головного офиса Россельхозбанка.Банк полностью ушел от маленьких песочниц, которые было сложно сопровождать. Сейчас каждое бизнес-подразделение может удобно использовать данные, которые раньше приходилось запрашивать у коллег в виде файлов или загружать из исходных систем. Добавление новых объектов из системных источников происходит практически по письму. Бизнес сам может открывать доступ к этим данным. Это единственная система, которую нужно сопровождать и развивать.
-
Уникальность проекта
Команда РСХБ-Интех разработала единую песочницу для аналитиков Россельхозбанка и объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.
- Использованное ПО
Airflow, PXF, Greenplum, Visiology, DRP-платформа, платформа RAISA
- Сложность реализации
Изначально у РСХБ было несколько разрозненных систем с большим количеством таблиц в разных песочницах, что создавало сложности в управлении данными. Важно и то, что песочницы еще были на разных СУБД — Oracle, MS SQL. Но у нас были указания Минцифры и большие планы по импортозамещению, поэтому было решено сделать единую песочницу данных на импортозамещенном ПО. При этом по локальным песочницам отсутствовала какая-либо документация.
- Описание проекта
-
Команда разделила GreenPlum на отдельные выделенные области (схемы для каждого бизнес-подразделения), в которых бизнес может создавать витрины, загружать данные из локальных файлов, писать процедуры. Выделили схему, область GL, в которой хранится и обновляется информация из систем источников, таких как двух хранилищ данных и Озера. DRP-песочница заняла место рядом с Озером данных и хранилищем.
-
Сейчас в DRP загружается базовый слой и почти весь бизнес-слой хранилища данных, из Озера забираются точечно витрины для определенных задач. В планах интеграция с ODS слоем КХД. Для реализации задач по визуализации данных и построения дашбордов и отчетов создана интеграция с BI-платформой Visiology. Для построения моделей данных и исследования данных создана интеграция с платформой искусственного интеллекта ( RAISA).
-
Сейчас в банке есть свой собственный ETL фреймворк, который написан на базе airflow и python. Отдельный кластер Greenplum, на котором выделено 100 ТБ, но планируется выделять больше ресурсов, так как понятен рост данных. Команда РСХБ-Интех запустила полностью работоспособную систему. Ровно полгода занял процесс от разработки до внедрения с учетом DevOps. В июне 2024 года мы решили, что будем переписывать движок. В декабре 2024 года в расписание встали на загрузку первые 200 объектов. По движку основные работы завершены. По загрузке несистемных данных мы сделали отдельное решение на базе платформы ИИ. Первые бизнес-подразделения начали его использовать для небольших объёмов. Переносятся песочницы. Архивные прогрузки практически везде уже закончились. 2,5 тысячи объектов из трех систем-источников обновляются в течение 1 часа и 40 минут.
-
Главные итоги — созданы единое место исследования и анализа данных, а также подготовка ad-hoc запросов. Все объекты, загруженные в систему, описаны в бизнес-глоссарии и актуализированы на Confluence.
Один из ключевых моментов успеха проекта — состав команды. В проекте приняли участие product-owner, технический product-owner, руководитель проекта, бизнес-аналитик, системный аналитик и несколько разработчиков.
-
- География проекта
Решение используется в головном офисе Россельхозбанка, в филиальной сети которого насчитывается 1,3 тысячи отделений почти во всех субъектах РФ.
- Дополнительные презентации:
- РСХБ_DRP-платформа.pdf