Первый этап по созданию единого централизованного хранилища данных

Заказчик:
ПАО Росбанк
Руководитель проекта со стороны заказчика
Поставщик
Arenadata (ООО «Аренадата Софтвер»)
Год завершения проекта
2022
Сроки выполнения проекта
Июнь, 2021 - Август, 2022
Масштаб проекта
33960 человеко-часов
Цели

  1. Создать единое хранилище данных с единой корпоративной моделью данных.
  2. В рамках этого этапа мигрировать хранилище розничного, малого и среднего бизнеса из отдельного хранилища в единое хранилище данных. Далее мигрировать все локальные хранилища в единое КХД.
  3. Отказаться от проприетарного зарубежного ПО.
  4. Уменьшить стоимость поддержки всех хранилищ.

Уникальность проекта

Проект одновременно решает несколько задач. В разных доменах Банка есть более 18 локальных аналитических хранилищ данных и «песочниц». Все они потребляют данные из множества источников (зачастую одинаковых) и излишне нагружают их. Данные хранилища обслуживают отдельные команды сопровождения и развития. Они занимают большие серверные мощности и дисковые объёмы, из-за чего каждый домен Банка несёт расходы на обслуживание своего хранилища. В масштабах Банка эти расходы составляют сотни миллионов рублей. Функционал одних хранилищ не переиспользуется другими, что увеличивает затраты на их разработку. Кроме того, изначально не было единой корпоративной аналитической модели данных. Это приводило к противоречивости данных, разной интерпретации, проблемам с качеством. В связи с созданием единого КХД с единой моделью данных, появилась необходимость выработать универсальные стандарты, процессы разработки, а также сервисы поддержки для разных команд. Также нужно было решить проблему с западным ПО.
Проект решает задачи импортозамещения
Да
Использованное ПО
  • Airflow
  • Внутреннее ПО
  • Arenadata DB (ADB) — российская аналитическая распределённая массивно-параллельная СУБД, построенная на базе проекта с открытым исходным кодом Greenplum. Оптимально подходит для аналитической работы с неограниченным объёмом данных, построения больших, надёжных и масштабируемых хранилищ. Замещает программные продукты западных вендоров Teradata, Oracle, Vertica, SAP, IBM и др.
  • Arenadata Hadoop (ADH) — готовый к использованию российский дистрибутив комплекса сервисов с открытым исходным кодом экосистемы Apache Hadoop с предустановленным оркестратором ИТ-ландшафта. Предназначен для работы с любыми типами и форматами данных и включает в себя все необходимые для работы компоненты: управление, доступ, анализ, интеграция, безопасность и администрирование. Оптимален для работы с неструктурированными или слабоструктурированными данными. Замещает программные продукты западных вендоров Cloudera&Hortonworks, Oracle, MapR, MongoDB и др.
Сложность реализации

  1. Необходимо было собрать «сырые данные» более чем из 50 источников в одном месте и обеспечить их ежедневное обновление.
  2. Для того чтобы успеть в жёсткие сроки, что-то приходилось делать с техническим долгом, который будет погашен при последующих доработках.
  3. Необходимость параллельной разработки на старом и новом хранилищах во время миграции (мы выбрали вариант, когда это делают одни и те же люди).
  4. В процессе миграции неожиданно всплыли «серые» потребители. Официально на старте проекта они никак не обозначились, разработку в пользу хранилища напрямую не вели, но витрины переиспользовали. Это породило дополнительные работы для включения «серых» потребителей в периметр миграции.
  5. Не предвидели «взрыв» активности на едином КХД. В 2021 году начинали одной-двумя командами, а в середине 2022-го пришло с десяток команд-разработчиков. Это потребовало выработать единые стандарты и процессы разработки, а также сервисы поддержки для множества различных команд в Банке.

Описание проекта

В рамках первого этапа по созданию единого КХД были выполнены работы:

— Осуществлён выбор систем и технологий для создания единого хранилища данных на базе сравнения имеющихся систем аналитической MPP-обработки данных.

— Развёрнута инфраструктура под новое хранилище.

— Подключено более 50 систем-источников и обеспечено ежедневное обновление данных.

— Организован мониторинг обновления данных и доступности хранилища в режиме 24/7.

— Выработаны единые стандарты и процессы разработки. Это дало возможность существенно расширить количество команд разработки, переиспользовать данные и имеющийся функционал.

— Реализована автоматизация CI\CD-поставок нового функционала на едином хранилище.

— Организованы следующие потоки данных в рамках единой корпоративной модели данных:

  • STG — слой «сырых» внешних таблиц. Таблицы подключаются из Hadoop.
  • ODS — слой для накопления истории из слоя STG по нужным атрибутам.
  • DDS — слой с детальными данными по основным сущностям.
  • EM — витрины с агрегированными показателями базовых сущностей: клиентский портфель, портфель HR, кредитные и депозитные портфели и др.
  • DM — витрины с рассчитанными агрегатами, сложными расчётами атрибутов (содержит витрины для формирования отчётов всех департаментов).
  • DICT — слой справочников.

— Проведена миграция отдельного розничного хранилища данных в единое КХД для подтверждения возможности его реализации на выбранном решении.

Розничное хранилище данных — внутренняя разработка, хранилище розничного, малого и среднего бизнеса, созданное 3 года назад. В нём была реализована функциональность ежедневных расчётов мотивации для более 2000 сотрудников региональной сети Банка (десятки ролей, различные управленческие уровни и сегменты Бизнеса), управленческая бизнес-отчётность (продажи, портфели, аналитика).

Перенос всей функциональности занял около года: уложили «сырые» данные, реализовали расчётные показатели, построили витрины, визуализировали отчёты и отключили старое хранилище.

— Подтверждены выбранные технологии, процессы и модели для реализации единого хранилища и единой корпоративной модели данных.

— Введено в промышленную эксплуатацию единое КХД.

— Осуществлён переход на ПО отечественного производителя на базе Open Source.

— Подготовлен план и начаты работы по дальнейшим миграциям локальных хранилищ на единое хранилище данных.

Итоги.

Созданы единое централизованное хранилище данных и единая корпоративная модель данных. 

Проведена миграция первого локального хранилища. Бизнес- заказчики не заметили момент технического перехода. 

Сотрудники банка обрели новые компетенции и технические навыки. 

Создание единого КХД должно заметно сократить издержки Банка на аналитику, а выбранные технологии доказали свою жизнеспособность. 

2008 сотрудников Банка были охвачены данным изменением.

География проекта
Все регионы России в рамках крупного Банка
Коментарии: 3

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Сергей Кузнецов
    Рейтинг: 1013
    Лебер Логистика
    Операционный директор
    19.12.2022 18:46

    Максим, добрый день.
    "Создание единого КХД должно заметно сократить издержки Банка на аналитику" - уточните пожалуйста, на сколько %?

  • Максим Часовиков
    Рейтинг: 4767
    РАНХиГС
    Директор Проектов проектного офиса ректора
    05.01.2023 13:35

    Добрый день, вы пишите: Розничное хранилище данных — внутренняя разработка, хранилище розничного, малого и среднего бизнеса, созданное 3 года назад. В нём была реализована функциональность ежедневных расчётов мотивации для более 2000 сотрудников региональной сети Банка (десятки ролей, различные управленческие уровни и сегменты Бизнеса), управленческая бизнес-отчётность (продажи, портфели, аналитика).
    На сколько это удалось сделать на первом этапе и будет ли развитие этого направления на последующих этапах проекта?

  • Александр Виноградов
    Рейтинг: 1060
    НАНОЛЕК
    CIO
    08.01.2023 01:09

    Добрый день. Из описания проекта не понятно, чем вы строите визуализацию данных ?

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.