Корпоративная дата-платформа – единый конвейер по работе с данными

Заказчик:
ПАО Газпром нефть
Руководитель проекта со стороны заказчика
Поставщик
DIS Group
Год завершения проекта
2024
Сроки выполнения проекта
январь, 2023 — ноябрь, 2024
Масштаб проекта
80380 человеко-часов
Цели
  • Создание и внедрение единой платформы по работе с данными на базе отечественных разработок.

  • Оптимизация процессов обработки и анализа данных.

  • Повышение эффективности работы компании и качества принимаемых решений.

  • Снижение стоимости проектов за счет использования инструментов и инфраструктуры платформы.

Результаты
  1. Ускорение T2M на >40%

  2. Ускорение выдачи данных до 4 ч. с момента запроса

  3. Экономия бюджета и времени на сопровождение процессов работы с данными

  4. Снижение дублирования загрузки данных из источнико

  5. Ускорение получения доступа к наборам данных для самостоятельного анализа бизнесом через сквозную ролевую модель

  6. Внедрен конвейер по работе с данными: от загрузки до подготовки витрин, проверок качества, каталогизации и описания данных, публикации витрин в магазине данных до создания аналитических приложений

  7. Для снижения трудозатрат внедрены шаблоны разработки, ролевая модель доступа, fast-track подключения источников, регламенты, гайды и программы обучения. Для стабильности платформы реализованы аналитические приложения от мониторинга ПО до объёмов наполнения платформы.

Проект объединяет все элементы в систему для повышения конкурентоспособности компании. Благодаря платформе компания принимает быстрые и качественные решения и повышает эффективность работы при снижении рисков.

Уникальность проекта

Архитектура системы состоит из самописных компонентов и на базе российских технологий. Из-за отсутствия готовых отечественных решений для работы с данными, проектная команда вместе с 5-ю вендорами разрабатывала и внедряла функционал решений первыми на рынке.

Также уникальность и сложность проекта заключалась в необходимости построения единого конвейера по работе с данными (загрузка и обработка данных в хранилище; сканирование и описание данных в каталоге; реализация проверок качества данных; публикация данных в магазине; использование их в SS BI), конвейере, где все базируется на одних бизнес- и технических метаданных.

При реализации проекта было устранено дублирование инструментария, что не только улучшило консистентность корпоративной архитектуры, но и принесло экономический эффект, связанный с лицензированием систем.

Реализация шаблонов и регламентов разработки, формирование базы знаний, аналитическая отчетность по платформе позволили снизить трудозатраты на работу с данными.

Использованное ПО

Инфраструктура:

324 сервера, CPU 1584 vCore, Диски 42 Tb, 4,5 Tb памяти, 143 инстанса

ПО:

  • Инструменты по интеграции и хранению данных (Arenadata DB, Arenadata QuickMarts, Apache Airflow, PostgresPRO, Plus7 FormIT, Hadoop, CedrusData)

  • Инструменты по каталогизации и описания данных (Plus7 EDM, In-house разработка портала «Технические метаданные», PostgresPRO, Apache Airflow)

  • Инструменты по верификации качества данных (Plus7 FormIT, Алмаз Мониторинг, In-house разработка портала «Качества данных», PostgresPRO, Apache Airflow)

  • Инструменты для визуализации и анализа данных (PIX BI, Luxms BI)

  • Инструменты для самостоятельного анализа данных (PIX BI, In-house разработка портала «Лаборатория данных», In-house разработка «Магазина данных»)

Сложность реализации

Основная сложность — отсутствие готового отечественного решения на рынке и необходимость высокотехнологической собственной разработки платформы по работе с данными, разрозненностью подходов по работе с данными в Блоках, дублированием инструментария. Серьезным вызовом стала необходимость:

  • Поиска и выбора отечественных компонентов

  • Разработки недостающих компонентов для эффективной работы платформы

  • Интеграции компонентов между собой с учетом стандартов информационной безопасности в компании

  • Обучение сотрудников новым инструментам по работе с данными

  • Создание единых регламентов и шаблонов разработки, гайдов по работе с инструментами и технологиям для выравнивания уровня компетенции специалистов.

Описание проекта

В 2024 внедрен единый конвейер данных: дата-платформа позволяет эффективно обрабатывать и анализировать данные. Это комплексное решение проблемы разрозненности инфраструктуры и ПО по работе с данными в компании. Внедрены инструменты для визуализации и анализа данных (PIX BI, Luxms BI – решения класса BI), инструменты по каталогизации и описания данных (Plus7 EDM, собственная разработка – решение класса DC)), инструменты по верификации качества данных (Plus7 ForrmIT, Алмаз Мониторинг, собственная разработка – решения класса DQ), инструменты по интеграции и хранению данных (Postgres, ADGP, ADQM, Plus7 FormIT, Airflow, Hadoop, CedrusData – решения класса ETL, DWH), инструменты для самостоятельного анализа данных, т.к. SS BI (PIX BI, собственная разработка).

Для создания и внедрения единой корпоративной дата-платформы были предприняты следующие шаги:

  1. Определение продуктовой линейки. Был сформирован перечень технологических продуктов.

  2. Организация работы. Команда и функциональные заказчики начали работать на основе гибкой методологии. Технологические продукты предоставлялись поэтапно, а функциональные заказчики тестировали их функциональность и получали опыт работы с ними.

  3. Проверка требований информационной безопасности (ИБ). Были определены требования к технологическим продуктам, проведён анализ рынка инструментов, тестирование, проверка и подтверждение соответствия требованиям ИБ.

  4. Проектирование архитектуры. Была разработана целевая архитектура платформы.

  5. Разработка и внедрение продуктов. Были созданы и внедрены технологические продукты.

  6. Онбординг и сервис продуктов. Для пользователей был организован сервис «Единого окна», который маршрутизирует обращения по продуктам.

  7. Развитие продуктов. Заявки от пользователей обрабатываются через таск-трекер, оцениваются и приоритизируются. На основе этого формируется дорожная карта реализации, которая включает в себя реализацию функций, тестирование и передачу на обслуживание.

Дата-платформа состоит из 5 продуктов:

  • Хранилище и доступ к данным. Обеспечивают загрузку, интеграцию и хранение данных, построение витрин для BI-приложений и использование данных для продвинутой ML-аналитики.

  • Каталог данных. Предоставляет единое окно доступа к информации о функции управления данными, автоматическое сканирование технических метаданных различных систем, бизнес-описание данных и категоризацию данных по подразделениям, процессам и другим объектам

  • Качество данных. Собирает и управляет бизнес-метаданными по качеству данных, автоматически создаёт проверки по качеству данных и осуществляет мониторинг и анализ проверок.

  • Бизнес-аналитика. Создание BI-приложения под ключ и предоставляют анализ и отображение аналитики для менеджеров различного уровня.

  • Лаборатория данных. Позволяют проводить самостоятельный анализ и решение задач по обработке и визуализации данных

    Также был создан интеграционный слой из более чем 40 внутренних и внешних интеграций, который соединяет инструменты между собой в единый процесс.

География проекта

Компания ПАО Газпром нефть, включая дочерние общества

Коментарии: 1

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Роман Кузнецов
    Рейтинг: 926
    ГК Интертехэлектро
    CDTO
    21.11.2024 15:39

    Добрый день! Очень интересный проект. Жаль нет какого-то более подробного материала по реализованной системе. Схемы архитектуры компонентов верхнего уровня, например.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.