Корпоративная дата-платформа – единый конвейер по работе с данными
- Заказчик:
- ПАО Газпром нефть
- Руководитель проекта со стороны заказчика
- Поставщик
- DIS Group
- Год завершения проекта
- 2024
- Сроки выполнения проекта
- январь, 2023 — ноябрь, 2024
- Масштаб проекта
- 80380 человеко-часов
- Цели
-
Создание и внедрение единой платформы по работе с данными на базе отечественных разработок.
-
Оптимизация процессов обработки и анализа данных.
-
Повышение эффективности работы компании и качества принимаемых решений.
-
Снижение стоимости проектов за счет использования инструментов и инфраструктуры платформы.
-
- Результаты
-
Ускорение T2M на >40%
-
Ускорение выдачи данных до 4 ч. с момента запроса
-
Экономия бюджета и времени на сопровождение процессов работы с данными
-
Снижение дублирования загрузки данных из источнико
-
Ускорение получения доступа к наборам данных для самостоятельного анализа бизнесом через сквозную ролевую модель
-
Внедрен конвейер по работе с данными: от загрузки до подготовки витрин, проверок качества, каталогизации и описания данных, публикации витрин в магазине данных до создания аналитических приложений
-
Для снижения трудозатрат внедрены шаблоны разработки, ролевая модель доступа, fast-track подключения источников, регламенты, гайды и программы обучения. Для стабильности платформы реализованы аналитические приложения от мониторинга ПО до объёмов наполнения платформы.
Проект объединяет все элементы в систему для повышения конкурентоспособности компании. Благодаря платформе компания принимает быстрые и качественные решения и повышает эффективность работы при снижении рисков.
-
Уникальность проекта
Архитектура системы состоит из самописных компонентов и на базе российских технологий. Из-за отсутствия готовых отечественных решений для работы с данными, проектная команда вместе с 5-ю вендорами разрабатывала и внедряла функционал решений первыми на рынке.
Также уникальность и сложность проекта заключалась в необходимости построения единого конвейера по работе с данными (загрузка и обработка данных в хранилище; сканирование и описание данных в каталоге; реализация проверок качества данных; публикация данных в магазине; использование их в SS BI), конвейере, где все базируется на одних бизнес- и технических метаданных.
При реализации проекта было устранено дублирование инструментария, что не только улучшило консистентность корпоративной архитектуры, но и принесло экономический эффект, связанный с лицензированием систем.
Реализация шаблонов и регламентов разработки, формирование базы знаний, аналитическая отчетность по платформе позволили снизить трудозатраты на работу с данными.
- Использованное ПО
Инфраструктура:
324 сервера, CPU 1584 vCore, Диски 42 Tb, 4,5 Tb памяти, 143 инстанса
ПО:
-
Инструменты по интеграции и хранению данных (Arenadata DB, Arenadata QuickMarts, Apache Airflow, PostgresPRO, Plus7 FormIT, Hadoop, CedrusData)
-
Инструменты по каталогизации и описания данных (Plus7 EDM, In-house разработка портала «Технические метаданные», PostgresPRO, Apache Airflow)
-
Инструменты по верификации качества данных (Plus7 FormIT, Алмаз Мониторинг, In-house разработка портала «Качества данных», PostgresPRO, Apache Airflow)
-
Инструменты для визуализации и анализа данных (PIX BI, Luxms BI)
-
Инструменты для самостоятельного анализа данных (PIX BI, In-house разработка портала «Лаборатория данных», In-house разработка «Магазина данных»)
-
- Сложность реализации
Основная сложность — отсутствие готового отечественного решения на рынке и необходимость высокотехнологической собственной разработки платформы по работе с данными, разрозненностью подходов по работе с данными в Блоках, дублированием инструментария. Серьезным вызовом стала необходимость:
-
Поиска и выбора отечественных компонентов
-
Разработки недостающих компонентов для эффективной работы платформы
-
Интеграции компонентов между собой с учетом стандартов информационной безопасности в компании
-
Обучение сотрудников новым инструментам по работе с данными
-
Создание единых регламентов и шаблонов разработки, гайдов по работе с инструментами и технологиям для выравнивания уровня компетенции специалистов.
-
- Описание проекта
В 2024 внедрен единый конвейер данных: дата-платформа позволяет эффективно обрабатывать и анализировать данные. Это комплексное решение проблемы разрозненности инфраструктуры и ПО по работе с данными в компании. Внедрены инструменты для визуализации и анализа данных (PIX BI, Luxms BI – решения класса BI), инструменты по каталогизации и описания данных (Plus7 EDM, собственная разработка – решение класса DC)), инструменты по верификации качества данных (Plus7 ForrmIT, Алмаз Мониторинг, собственная разработка – решения класса DQ), инструменты по интеграции и хранению данных (Postgres, ADGP, ADQM, Plus7 FormIT, Airflow, Hadoop, CedrusData – решения класса ETL, DWH), инструменты для самостоятельного анализа данных, т.к. SS BI (PIX BI, собственная разработка).
Для создания и внедрения единой корпоративной дата-платформы были предприняты следующие шаги:
-
Определение продуктовой линейки. Был сформирован перечень технологических продуктов.
-
Организация работы. Команда и функциональные заказчики начали работать на основе гибкой методологии. Технологические продукты предоставлялись поэтапно, а функциональные заказчики тестировали их функциональность и получали опыт работы с ними.
-
Проверка требований информационной безопасности (ИБ). Были определены требования к технологическим продуктам, проведён анализ рынка инструментов, тестирование, проверка и подтверждение соответствия требованиям ИБ.
-
Проектирование архитектуры. Была разработана целевая архитектура платформы.
-
Разработка и внедрение продуктов. Были созданы и внедрены технологические продукты.
-
Онбординг и сервис продуктов. Для пользователей был организован сервис «Единого окна», который маршрутизирует обращения по продуктам.
-
Развитие продуктов. Заявки от пользователей обрабатываются через таск-трекер, оцениваются и приоритизируются. На основе этого формируется дорожная карта реализации, которая включает в себя реализацию функций, тестирование и передачу на обслуживание.
Дата-платформа состоит из 5 продуктов:
-
Хранилище и доступ к данным. Обеспечивают загрузку, интеграцию и хранение данных, построение витрин для BI-приложений и использование данных для продвинутой ML-аналитики.
-
Каталог данных. Предоставляет единое окно доступа к информации о функции управления данными, автоматическое сканирование технических метаданных различных систем, бизнес-описание данных и категоризацию данных по подразделениям, процессам и другим объектам
-
Качество данных. Собирает и управляет бизнес-метаданными по качеству данных, автоматически создаёт проверки по качеству данных и осуществляет мониторинг и анализ проверок.
-
Бизнес-аналитика. Создание BI-приложения под ключ и предоставляют анализ и отображение аналитики для менеджеров различного уровня.
-
Лаборатория данных. Позволяют проводить самостоятельный анализ и решение задач по обработке и визуализации данных
Также был создан интеграционный слой из более чем 40 внутренних и внешних интеграций, который соединяет инструменты между собой в единый процесс.
-
- География проекта
Компания ПАО Газпром нефть, включая дочерние общества