Создана платформа для построения аналитических хранилищ данных

Заказчик:
Банк ВТБ (ПАО)
Руководитель проекта со стороны заказчика
Поставщик
Компания «Дататех» ГК «Иннотех»
Год завершения проекта
2023
Сроки выполнения проекта
Сентябрь, 2019 - Май, 2023
Масштаб проекта
866342 человеко-часа
Цели
  1. Спроектировать и развернуть платформу для создания аналитического хранилища данных;
  2. Спроектировать и разработать универсальный ETL Фреймворк, включая механизмы управления загрузкой на основе микросервисной архитектуры;
  3. Обеспечить в модели данных единого аналитического хранилища синергию данных оперативной, аналитической, неструктурированной информации для задач продвинутой аналитики;
  4. Реализовать отказоустойчивую, масштабируемую и геораспределенную архитектуру повышенной надежности;
  5. Реализовать ролевую модель доступа в соответствии с требованиями информационной безопасности и без необходимости настройки доступов на уровне СУБД;
  6. Создать корпоративные стандарты аналитической платформы данных, обеспечивающие унифицированные интерфейсы и правила обмена данными;
  7. Снизить общую стоимость владения.

Результаты
  1. Спроектирована и развернута платформа для создания аналитического хранилища данных;
  2. Спроектирован и разработан универсальный ETL Фреймворк, включая механизмы управления загрузкой на основе микросервисной архитектуры;
  3. Создана модель данных единого аналитического хранилища, обеспечивающая синергию данных оперативной, аналитической, неструктурированной информации для задач продвинутой аналитики;
  4. Реализована отказоустойчивая, масштабируемая и геораспределенная архитектура повышенной надежности;
  5. Реализована ролевая модель доступа в соответствии с требованиями информационной безопасности и без необходимости настройки доступов на уровне СУБД;
  6. Созданы корпоративные стандарты аналитической платформы данных, обеспечивающие унифицированные интерфейсы и правила обмена данными;
  7. Снижена общая стоимость владения.

Уникальность проекта

  1. Разработанный Банком ETL Фреймворк обеспечивает технологический суверенитет ИТ-отрасли России и может быть использован в любой отрасли и организациях любого размера для построения аналитических систем и хранилищ данных.
  2. Один из первых и крупнейших проектов в РФ по созданию платформы единого аналитического хранилища данных универсального Банка на отечественной импортозамещенной платформе Arenadata DB;
  3. Объем данных хранилища данных достиг 1 Петабайт;
  4. Спроектирована и реализована распределенная архитектура высокой надежности;
  5. Реализована микросервисная архитектуры;
  6. Полное построение на импортозамещенных технологиях с использованием стека открытого программного обеспечения;
  7. Распределенная географически команда проекта по всей России состоящая из более, чем 170 производственных команд.
Проект решает задачи импортозамещения
Да
Использованное ПО
Кластер Arenadata DB, PostgreSQL, Kafka, Prometheus, Grafana, Nginx, Airflow, Elastic search, ПАК «Сила СХД», Dremio.
Отдельно стоит выделить ETL Framework, который был написан с нуля командой проекта.

Сложность реализации
  1. Одно из первых крупных внедрений ArenadataDB;
  2. Замена практически всех компонент платформы для хранилища данных на импортозамещенный стек технологий;
  3. Огромная распределенная команда проекта;
  4. Изменение ИТ-ландашфта Банка параллельно с построением платформы аналитического хранилища данных;
  5. Унаследованные три legacy-хранилища данных;
  6. Большие объемы данных;
  7. Универсальная модель данных единого аналитического хранилища данных отличается от моделей legacy-хранилищ;
  8. Доработки и развитие функционала существующих legacy-хранилищ параллельно с проектированием и реализацией платформы единого аналитического хранилища данных;
  9. Одновременная смена используемых технологий хранений, обработки и доступа к данным, модели данных ядра хранилища потребовало дополнительного обучения и адаптации бизнес-пользователей.
Описание проекта
  1. Спроектирована и развернута универсальная аналитическая платформа для построения аналитического хранилища данных на современном импортозамещенном стеке технологий;
  2. Разработан ETL Фреймворк, который может быть использован в любой отрасли и организациях любого размера Российской Федерации;
  3. Фреймворк включает набор методик и проектных решений:
    • Функциональная и компонентная архитектуры;
    • Системная архитектура;
    • Архитектура данных;
    • Модели данных детальных слоев и витрин;
    • Алгоритмы типовых процессов
  4. Фреймворк включает в себя инструменты для автоматизации построения хранилищ данных:
    • Оркестратор процессов загрузки;
    • Менеджер вычислений и управления транзакциями в распределенных средах;
    • Библиотека типовых трансформаций и шаблонов ETL процессов;
    • Генератор кода.
  5. Фреймворк обладает следующими преимуществами:
    • Соответствует требованиям распределенной архитектуры высокой надежности;
    • Обеспечивает высокую производительность обработки и загрузки данных;
    • Базируется на микросервисной архитектуре;
    • Поддерживает историчность и версионность данных;
    • Полностью обеспечивает технологический суверенитет.
  6. Фреймворк позволяет достичь следующих преимуществ для ИТ-отрасли и организаций его использующих:
    • Максимальная скорость предоставления критически важных данных для бизнеса;
    • Снижение общей стоимости владения;
    • Сокращение time-to-market при создании и развитии хранилища данных.
  7. Разработана модель данных единого аналитического хранилища данных универсального банка, покрывающая ключевые предметные области банковской деятельности;
  8. Минимизированы нагрузка на системы поставщики данных за счет использования единой централизованной ODS платформы;
  9. Развернут функционал пользовательских песочниц для выполнения нерегламентированных запросов ad-hoc на платформах Arenadata DB и Arenadata Hadoop;
  10. Спроектирована и реализована ролевая модель доступа к данным, включающая в себя следующие режимы без необходимости настройки доступов на уровне СУБД:
    • Динамического маскирования (Dynamic Masking)
    • Безопасность на уровне строк (Row Level Security)
    • Управление доступом на основе ролей (Role-based access control, RBAC)
  11. Внедрен Модуль Управления Доступом на базе российской платформы Маяк BI и обеспечено разграничение доступа к данным с максимально гибкими правилами, отвечающими требованиям информационной безопасности, бизнеса и регуляторов;
  12. Для обеспечения доступа к данным проклассифицировано более 1,8 тыс. таблиц и 19 тысяч атрибутов, и обеспечен доступ к аналитическому хранилищу данных, включая доступ 60+ ролей, что обеспечивает более 1,5 млн. вариантов доступа к данным.
  13. Важным преимуществом платформы управления доступом является ее абсолютная прозрачность для бизнес-пользователей: пользователь не замечает её наличия, но при этом работают все правила разграничения доступа, и соблюдаются все требования информационной безопасности.

География проекта

Над реализацией проекта работала распределенная команда аналитиков и разработчиков из Калининграда, Москвы, Санкт-Петербурга, Твери, Казани, Томска, Хабаровска и многих других городов по всей России.

Над проектом работала сводная команда из более 170 производственных команд, а общее количество участников с различным уровнем вовлечения в проекте превысило 1 200 человек.
Коментарии: 28

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Александр Гудов
    Рейтинг: 49
    АО ОКБ
    Head of Data & Analytics Platform
    16.11.2023 08:13

    Большой проект, большой команды для большой компании! Пострено классическое хранилище больших данных и инструменты доставки и обработки данных. Не понятно внедрены ли такие элементы, как каталог данных и метаданных, управление графом загрузки, обработки и хранения данных, интегрированы ли инструменты качества данных поверх etl\elt, как решается задачи предсказательной аналитики на данном хранилище и тд. Удачи.

    • Федор Хилькевич Александр
      Рейтинг: 52
      Банк ВТБ
      Директор по управлению портфелем проектов управления "Фабрика данных"
      06.01.2024 18:19

      Добрый день.
      Решения контроля качества данных и каталога данных с точки зрения архитектуры платформы являются самостоятельными компонентами и функционируют в связке со всеми элементами платформы данных, в том числе и с аналитическим хранилищем. То есть ответ да, решения есть и функционируют, но рассматриваются как отдельные самостоятельные компоненты платформы, вне привязки только к аналитическому хранилищу.

      • Денис Селецкий Федор
        Рейтинг: 140
        ПАО ВТБ
        Руководитель кластера Управляющий механизм Платформа ЦЕХ
        07.01.2024 23:25

        Вечер добрый!
        Добавлю, у нас есть реализация базовых проверок качества загружаемых данных в самом механизме загрузок. Разработчик ETL имеет возможность «на лету» откинуть полные дубликаты, верифицировать и маркировать данные как не валидные в случае нарушения определенной логики загрузки, например, когда с источника явно приходит противоречивая история по бизнес логике, действующая на одну дату. Набор настраиваемых фильтров гибкий, если каких-то алгоритмов верификации нет, хочется их разработать самому – фреймворк дает такую возможность, важное ограничение - такие проверки «на лету» должны соответствовать архитектурным требованиям системы, чтобы ETL процессы не деградировали по производительности. Основной объем DQ реализован, как и написал Федор, в виде самостоятельных компонент платформы.

    • Денис Селецкий Александр
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      08.01.2024 10:23

      Александр, день добрый!
      В рамках проекта реализована интеграция с Informatica Enterprise Data Catalog, на уровне работы ядра ETL происходит сбор и соответствующая выгрузка данных для дальнейшей обработки и построения сквозного data lineage. В части каталога метаданных реализована базовая часть сбора описаний, идет работа над расширением функционала.

    • Денис Селецкий Александр
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      08.01.2024 10:29

      Инструменты управление графом загрузки реализованы в нескольких вариантах. Разработчик ETL, используя нашу платформу, может использовать готовый интеграционный сценарий из библиотеки интеграций, может добавить в типовой граф отдельные шаги в типовой процесс, если что-то необходимо уточнить, может полностью нарисовать свой граф процесса, используя базовые операторы и готовый функционал для взаимодействия с системными сервисами, последнее требование обязательно, чтобы процесс укладывался в архитектуру системы, данные были доступны во всех контурах нашего распределенного хранилища.

  • Александр Виноградов
    Рейтинг: 1069
    НАНОЛЕК
    CIO
    19.12.2023 13:41

    Добрый день. Проект масштабный, впечатляет. Почему Ваш выбор пал на ArenaData, а не использование самостоятельно GreenPluma и на его базе уже реализация задуманного ?

    • Федор Хилькевич Александр
      Рейтинг: 52
      Банк ВТБ
      Директор по управлению портфелем проектов управления "Фабрика данных"
      08.01.2024 22:13

      Добрый день,
      Одним из критериев выбора решения ArenaData была необходимость полноценной технической поддержки от поставщика решения. Масштаб создаваемого кластера превышает среднестатистические размеры, что ожидаемо порождает не типовые проблемы, а уровень критичности задач для банка требует оперативного и качественного их решения.

      • Денис Селецкий Федор
        Рейтинг: 140
        ПАО ВТБ
        Руководитель кластера Управляющий механизм Платформа ЦЕХ
        08.01.2024 22:19

        Неоднократно в рамках ОПЭ мы сталкивались с нетиповыми сценариями поведения кластера, благодаря оперативной поддержке поставщика решения проблемы решались на уровне экспертной группы во вполне рабочие сроки, что позволяло практически сократить время простоя кластера до нескольких часов, купировать проблему и дальше разбираться с ней в рабочем режиме.

        • Федор Хилькевич Денис
          Рейтинг: 52
          Банк ВТБ
          Директор по управлению портфелем проектов управления "Фабрика данных"
          08.01.2024 22:31

          Еще одним из аспектов работы с поставщиком Аренадата является портирование доработок, возникающих в процессе внедрения обратно в исходный код решения. То есть, когда у нас возникала потребность в доработке функционала, мы максимально оперативно реализовывали mvp решение, что бы не останавливать работы, а затем поставщик обеспечивал полноценную доработку, тестирование и внедрение требуемого функционала в основную ветку продукта.

  • Александр Виноградов
    Рейтинг: 1069
    НАНОЛЕК
    CIO
    19.12.2023 13:41

    Почему Вы решили создавать свой

    • Александр Виноградов Александр
      Рейтинг: 1069
      НАНОЛЕК
      CIO
      19.12.2023 13:42

      FRAMEWORK а не использовать другие, по примеру выбора ArenaData вместо GREENPLUMa

      • Денис Селецкий Александр
        Рейтинг: 140
        ПАО ВТБ
        Руководитель кластера Управляющий механизм Платформа ЦЕХ
        06.01.2024 18:41

        День добрый!
        Перед нами стояла задача сделать не просто фреймворк загрузки данных в хранилище, мы разрабатывали платформу развития хранилища данных со сложным историческим ландшафтом данных. Наш фреймворк представляет из себя набор системных сервисов, обеспечивающих как разработку ETL процессов, так и задачи синхронной и непрерывной доступности данных для потребителей в нескольких обособленных контурах. Готовых решений для построения систем такого масштаба и соответствия требованиям нашего заказчика просто нет на рынке.

  • Максим Часовиков
    Рейтинг: 4767
    РАНХиГС
    Директор Проектов проектного офиса ректора
    04.01.2024 23:28

    Добрый день, обычно под БигДатой подразумевается работа с разнородными неструктурированными, часто нетекстовыми и данными из разных источников и их обогащение. С какими источниками данных, прежде всего нетекстовых, осуществлялась работа в этом проекте?

    • Денис Селецкий Максим
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      06.01.2024 19:01

      День добрый!
      Перед нами стояла задача построения хранилища для одного из крупнейших финансовых институтов России, с обеспечением дальнейшего эффективного анализа огромного количества бизнес событий и показателей, самого разного формата, которые бизнес хотел бы видеть в некоторой унифицированной модели. Фактически решение позволяет с небольшими издержками на разработку выполнить такую задачу. Большая часть источников содержит структурированные форматы, разного вида, но все-таки какой-то определенной структуры. Для источников с неструктурированными данными есть отдельные модули.

    • Федор Хилькевич Максим
      Рейтинг: 52
      Банк ВТБ
      Директор по управлению портфелем проектов управления "Фабрика данных"
      06.01.2024 19:06

      Добрый день.
      Для задач "классического" анализа больших данных, в том контексте, в котором вы их обозначили рамках платформы существует отдельное масштабное решение (озеро данных), интегрированное с аналитическим хранилищем как по данным, так и с помощью единого API предоставляемого ETL фреймворком. Вместе с аналитическим хранилищем и оперативным хранилищем они составляют основу платформы данных.

  • Дмитрий Турчановский
    Рейтинг: 2577
    Зарубежнефть
    Заместитель начальника Управления информационных технологий
    06.01.2024 22:01

    Серьёзный проект и комплексная реализация. Как указано большая команда работала над проектом, такое ощущение, что этот проект ещё долго будет продолжаться. Каким обрезом организована сдача в эксплуатацию платформы, по модулям или как-то иначе? Также интересно сколько поддержки требуется для обслуживания данной платформы?

    • Денис Селецкий Дмитрий
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      06.01.2024 23:26

      Вечер добрый!
      Решение модульное, разработано большое количество функциональных микросервисов, интеграционных компонент, основные модули уже внедрены в промышленную эксплуатацию и активно используются несколькими сотнями потребителей в разработке ETL процессов. Несколько тысяч реальных ETL процессов ежедневно в регламенте загружают данные в целевое хранилище заказчика. Проект действительно очень масштабный, дальнейшее развитие подразумевает разработку новых модульных решений для повышения удобства эксплуатации, мониторинга, повышения скорости разработки, расширения библиотеки готовых типовых интеграций.
      Текущий объем поддержки осуществляет группа экспертов 3ЛС в 10 человек, вопросы в области 1, 2 ЛС задокументированы и переданы в зону ответственности соответствующих служб заказчика в установленном порядке.

  • Александр Данилов
    Рейтинг: 20
    ООО Философия.ИТ
    Партнер
    08.01.2024 23:23

    Добрый день! Как происходит контроль и мониторинг загрузки данных?

    • Денис Селецкий Александр
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      08.01.2024 23:40

      День добрый!
      В системе есть набор инструментов, позволяющий проконтролировать любой ETL процесс в режиме реального времени, понять что происходит. Централизованная система логирования позволяет получить информацию в единой точке о всех процессах в системе, построить data lineage по результатам работы процессов.

  • Александр Данилов
    Рейтинг: 20
    ООО Философия.ИТ
    Партнер
    08.01.2024 23:23

    Добрый вечер! Скажите какой средний срок загрузки одной сущности в хд?

    • Денис Селецкий Александр
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      08.01.2024 23:45

      День добрый!
      Зависит от атрибутного состава сущности, количества исходных источников, необходимости дополнительной унификации данных, текущего объема и количества требуемых проверок.
      В среднем производственное звено из аналитика, разработчика обеспечивает разработку готового по всем стандартам процесса от источника до бизнес слоя за 2 недели.

  • Александр Данилов
    Рейтинг: 20
    ООО Философия.ИТ
    Партнер
    08.01.2024 23:24

    Какие навыки нужны разработчику для загрузки данных при помощи вашего фреймворка?

    • Денис Селецкий Александр
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      08.01.2024 23:50

      День добрый!
      Нами был сделан упор на простоту понимания принципов разработки на нашем фреймворке, поэтому базовые требования весьма не критичны. Разработчик в принципе должен понимать на базовом уровне что такое ETL / ELT, знать PostgreSQL на среднем уровне, уметь понять на уровне запросов что же пошло не так в системе, из обязательных требований понимать, как работает платформа СУБД, в нашем случае это Arenadata DB, большая часть проблем возникает именно из-за попыток переложить свои знания о работе других СУБД один к одному.

  • Александр Данилов
    Рейтинг: 20
    ООО Философия.ИТ
    Партнер
    08.01.2024 23:25

    Каким образом организован процесс тестирования etl-процессов и на каких данных проводится тестирование?

    • Денис Селецкий Александр
      Рейтинг: 140
      ПАО ВТБ
      Руководитель кластера Управляющий механизм Платформа ЦЕХ
      08.01.2024 23:54

      День добрый!
      На нашем проекте организовано несколько контуров тестирования, первичный контур где происходит техническая отладка - контур с обезличенными промышленными данными сопоставимыми по объему, функционал, который прошел первичную приему "едет" дальше, проходя тестирование на последующих контурах, постепенно "доезжая" до промышленной среды.

  • Александр Данилов
    Рейтинг: 20
    ООО Философия.ИТ
    Партнер
    08.01.2024 23:25

    Сколько времени занял проект и какие планы по развитию?)

  • Федор Хилькевич
    Рейтинг: 52
    Банк ВТБ
    Директор по управлению портфелем проектов управления "Фабрика данных"
    08.01.2024 23:56

    Добрый день

    Проект от зарождения идеи до реализации занял три с половиной года. В дальнейших планах развитие инструментов мониторинга, унификация интерфейсов обмена данными с внешними системами, расширение функциональности для работы в мультикластерном режиме для дальнейшего горизонтального масштабирования.

  • Денис Селецкий
    Рейтинг: 140
    ПАО ВТБ
    Руководитель кластера Управляющий механизм Платформа ЦЕХ
    08.01.2024 23:59

    День добрый!
    Текущий этап проекта закончен. Текущие задачи выполнены в полном объеме, 33 месяца более 170 производственных команд с разной степенью привлечения работало над проектом.
    Дальнейшее развитие запланировано на 2024 - 2025 год, нам предстоит сделать еще много интересных и полезных инструментов.
    У нас обязательно все получится!

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.