Создана платформа для построения аналитических хранилищ данных
- Заказчик:
- Банк ВТБ (ПАО)
- Руководитель проекта со стороны заказчика
- Поставщик
- Компания «Дататех» ГК «Иннотех»
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- Сентябрь, 2019 - Май, 2023
- Масштаб проекта
- 866342 человеко-часа
- Цели
- Спроектировать и развернуть платформу для создания аналитического хранилища данных;
- Спроектировать и разработать универсальный ETL Фреймворк, включая механизмы управления загрузкой на основе микросервисной архитектуры;
- Обеспечить в модели данных единого аналитического хранилища синергию данных оперативной, аналитической, неструктурированной информации для задач продвинутой аналитики;
- Реализовать отказоустойчивую, масштабируемую и геораспределенную архитектуру повышенной надежности;
- Реализовать ролевую модель доступа в соответствии с требованиями информационной безопасности и без необходимости настройки доступов на уровне СУБД;
- Создать корпоративные стандарты аналитической платформы данных, обеспечивающие унифицированные интерфейсы и правила обмена данными;
- Снизить общую стоимость владения.
- Результаты
- Спроектирована и развернута платформа для создания аналитического хранилища данных;
- Спроектирован и разработан универсальный ETL Фреймворк, включая механизмы управления загрузкой на основе микросервисной архитектуры;
- Создана модель данных единого аналитического хранилища, обеспечивающая синергию данных оперативной, аналитической, неструктурированной информации для задач продвинутой аналитики;
- Реализована отказоустойчивая, масштабируемая и геораспределенная архитектура повышенной надежности;
- Реализована ролевая модель доступа в соответствии с требованиями информационной безопасности и без необходимости настройки доступов на уровне СУБД;
- Созданы корпоративные стандарты аналитической платформы данных, обеспечивающие унифицированные интерфейсы и правила обмена данными;
- Снижена общая стоимость владения.
Уникальность проекта
- Разработанный Банком ETL Фреймворк обеспечивает технологический суверенитет ИТ-отрасли России и может быть использован в любой отрасли и организациях любого размера для построения аналитических систем и хранилищ данных.
- Один из первых и крупнейших проектов в РФ по созданию платформы единого аналитического хранилища данных универсального Банка на отечественной импортозамещенной платформе Arenadata DB;
- Объем данных хранилища данных достиг 1 Петабайт;
- Спроектирована и реализована распределенная архитектура высокой надежности;
- Реализована микросервисная архитектуры;
- Полное построение на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
- Распределенная географически команда проекта по всей России состоящая из более, чем 170 производственных команд.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
- Кластер Arenadata DB, PostgreSQL, Kafka, Prometheus, Grafana, Nginx, Airflow, Elastic search, ПАК «Сила СХД», Dremio.Отдельно стоит выделить ETL Framework, который был написан с нуля командой проекта.
- Сложность реализации
- Одно из первых крупных внедрений ArenadataDB;
- Замена практически всех компонент платформы для хранилища данных на импортозамещенный стек технологий;
- Огромная распределенная команда проекта;
- Изменение ИТ-ландашфта Банка параллельно с построением платформы аналитического хранилища данных;
- Унаследованные три legacy-хранилища данных;
- Большие объемы данных;
- Универсальная модель данных единого аналитического хранилища данных отличается от моделей legacy-хранилищ;
- Доработки и развитие функционала существующих legacy-хранилищ параллельно с проектированием и реализацией платформы единого аналитического хранилища данных;
- Одновременная смена используемых технологий хранений, обработки и доступа к данным, модели данных ядра хранилища потребовало дополнительного обучения и адаптации бизнес-пользователей.
- Одно из первых крупных внедрений ArenadataDB;
- Описание проекта
- Спроектирована и развернута универсальная аналитическая платформа для построения аналитического хранилища данных на современном импортозамещенном стеке технологий;
- Разработан ETL Фреймворк, который может быть использован в любой отрасли и организациях любого размера Российской Федерации;
- Фреймворк включает набор методик и проектных решений:
- Функциональная и компонентная архитектуры;
- Системная архитектура;
- Архитектура данных;
- Модели данных детальных слоев и витрин;
- Алгоритмы типовых процессов
- Фреймворк включает в себя инструменты для автоматизации построения хранилищ данных:
- Оркестратор процессов загрузки;
- Менеджер вычислений и управления транзакциями в распределенных средах;
- Библиотека типовых трансформаций и шаблонов ETL процессов;
- Генератор кода.
- Фреймворк обладает следующими преимуществами:
- Соответствует требованиям распределенной архитектуры высокой надежности;
- Обеспечивает высокую производительность обработки и загрузки данных;
- Базируется на микросервисной архитектуре;
- Поддерживает историчность и версионность данных;
- Полностью обеспечивает технологический суверенитет.
- Фреймворк позволяет достичь следующих преимуществ для ИТ-отрасли и организаций его использующих:
- Максимальная скорость предоставления критически важных данных для бизнеса;
- Снижение общей стоимости владения;
- Сокращение time-to-market при создании и развитии хранилища данных.
- Разработана модель данных единого аналитического хранилища данных универсального банка, покрывающая ключевые предметные области банковской деятельности;
- Минимизированы нагрузка на системы поставщики данных за счет использования единой централизованной ODS платформы;
- Развернут функционал пользовательских песочниц для выполнения нерегламентированных запросов ad-hoc на платформах Arenadata DB и Arenadata Hadoop;
- Спроектирована и реализована ролевая модель доступа к данным, включающая в себя следующие режимы без необходимости настройки доступов на уровне СУБД:
- Динамического маскирования (Dynamic Masking)
- Безопасность на уровне строк (Row Level Security)
- Управление доступом на основе ролей (Role-based access control, RBAC)
- Внедрен Модуль Управления Доступом на базе российской платформы Маяк BI и обеспечено разграничение доступа к данным с максимально гибкими правилами, отвечающими требованиям информационной безопасности, бизнеса и регуляторов;
- Для обеспечения доступа к данным проклассифицировано более 1,8 тыс. таблиц и 19 тысяч атрибутов, и обеспечен доступ к аналитическому хранилищу данных, включая доступ 60+ ролей, что обеспечивает более 1,5 млн. вариантов доступа к данным.
- Важным преимуществом платформы управления доступом является ее абсолютная прозрачность для бизнес-пользователей: пользователь не замечает её наличия, но при этом работают все правила разграничения доступа, и соблюдаются все требования информационной безопасности.
- География проекта
Над реализацией проекта работала распределенная команда аналитиков и разработчиков из Калининграда, Москвы, Санкт-Петербурга, Твери, Казани, Томска, Хабаровска и многих других городов по всей России.
Над проектом работала сводная команда из более 170 производственных команд, а общее количество участников с различным уровнем вовлечения в проекте превысило 1 200 человек.