Создание единой платформы Data Research Platform (DRP) в РСХБ-Интех

Заказчик:
РСХБ
Руководитель проекта со стороны заказчика
Поставщик
РСХБ.Цифра
Год завершения проекта
2025
Сроки выполнения проекта
сентябрь, 2024 — сентябрь, 2025
Масштаб проекта
2000 человеко-часов
Цели

Команда РСХБ-Интех (дочерняя компания РСХБ) реализовала проект по созданию большой песочницы на Greenplum для всех аналитиков одного из крупнейших банков в России. Команда приняла решение объединить все системы в единый кластер на базе Greenplum от Arenadata, используя Airflow и PXF для ETL-процессов. Проект включал миграцию порядка 10 000 таблиц из различных источников, таких как АСРМ,Озеро, Хранилище, пользовательских песочниц и других. В ходе работы эксперты столкнулись с множеством технических и организационных вызовов: отсутствием документации, частой сменой команд, желанием перенести все «как есть».

  • В результате проекта в РСХБ была создана единая платформа с централизованным управлением данными, едиными стандартами загрузки и доступа. Команда разработала новую ролевую модель, механизмы загрузки данных, интеграции с источниками и ежедневно загружает и обновляет более 2500 объектов. Ключевые достижения проекта — единая система сопровождения, полное описание объектов, централизованное место для анализа данных и управления как с IT, так и с бизнес-перспективы.

  • Песочницей пользуется более 500 пользователей головного офиса Россельхозбанка.Банк полностью ушел от маленьких песочниц, которые было сложно сопровождать. Сейчас каждое бизнес-подразделение может удобно использовать данные, которые раньше приходилось запрашивать у коллег в виде файлов или загружать из исходных систем. Добавление новых объектов из системных источников происходит практически по письму. Бизнес сам может открывать доступ к этим данным. Это единственная система, которую нужно сопровождать и развивать.

Уникальность проекта

Команда РСХБ-Интех разработала единую песочницу для аналитиков Россельхозбанка и объединила все инструменты и ресурсы в одном месте, обеспечивая эффективность, удобство и возможность совместной работы.

Использованное ПО

Airflow, PXF, Greenplum, Visiology, DRP-платформа, платформа RAISA

Сложность реализации

Изначально у РСХБ было несколько разрозненных систем с большим количеством таблиц в разных песочницах, что создавало сложности в управлении данными. Важно и то, что песочницы еще были на разных СУБД — Oracle, MS SQL. Но у нас были указания Минцифры и большие планы по импортозамещению, поэтому было решено сделать единую песочницу данных на импортозамещенном ПО. При этом по локальным песочницам отсутствовала какая-либо документация.

Описание проекта
  • Команда разделила GreenPlum на отдельные выделенные области (схемы для каждого бизнес-подразделения), в которых бизнес может создавать витрины, загружать данные из локальных файлов, писать процедуры. Выделили схему, область GL, в которой хранится и обновляется информация из систем источников, таких как двух хранилищ данных и Озера. DRP-песочница заняла место рядом с Озером данных и хранилищем.

  • Сейчас в DRP загружается базовый слой и почти весь бизнес-слой хранилища данных, из Озера забираются точечно витрины для определенных задач. В планах интеграция с ODS слоем КХД. Для реализации задач по визуализации данных и построения дашбордов и отчетов создана интеграция с BI-платформой Visiology. Для построения моделей данных и исследования данных создана интеграция с платформой искусственного интеллекта ( RAISA).

  • Сейчас в банке есть свой собственный ETL фреймворк, который написан на базе airflow и python. Отдельный кластер Greenplum, на котором выделено 100 ТБ, но планируется выделять больше ресурсов, так как понятен рост данных. Команда РСХБ-Интех запустила полностью работоспособную систему. Ровно полгода занял процесс от разработки до внедрения с учетом DevOps. В июне 2024 года мы решили, что будем переписывать движок. В декабре 2024 года в расписание встали на загрузку первые 200 объектов. По движку основные работы завершены. По загрузке несистемных данных мы сделали отдельное решение на базе платформы ИИ. Первые бизнес-подразделения начали его использовать для небольших объёмов. Переносятся песочницы. Архивные прогрузки практически везде уже закончились. 2,5 тысячи объектов из трех систем-источников обновляются в течение 1 часа и 40 минут.

  • Главные итоги — созданы единое место исследования и анализа данных, а также подготовка ad-hoc запросов. Все объекты, загруженные в систему, описаны в бизнес-глоссарии и актуализированы на Confluence.

    Один из ключевых моментов успеха проекта — состав команды. В проекте приняли участие product-owner, технический product-owner, руководитель проекта, бизнес-аналитик, системный аналитик и несколько разработчиков.

География проекта

Решение используется в головном офисе Россельхозбанка, в филиальной сети которого насчитывается 1,3 тысячи отделений почти во всех субъектах РФ.

Дополнительные презентации:
РСХБ_DRP-платформа.pdf

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.