• 526

    Заявлено проектов

  • 443

    Опубликовано проектов

  • 164

    Оставлено комментариев

  • 1485

    Количество голосов

  • 22

    Дней до окончания голосования

← Вернуться к списку

Корпоративная дата-платформа – единый конвейер по работе с данными

  • Руководитель проекта со стороны заказчика

  • Категория

  • Номинация

  • Цели

    • Создание и внедрение единой платформы по работе с данными на базе отечественных разработок.

    • Оптимизация процессов обработки и анализа данных.

    • Повышение эффективности работы компании и качества принимаемых решений.

    • Снижение стоимости проектов за счет использования инструментов и инфраструктуры платформы.

  • Сроки выполнения

    январь, 2023 — ноябрь, 2024
  • Год завершения проекта

    2024

  • Масштаб проекта

    80380 человеко-часов
  • Результаты

    1. Ускорение T2M на >40%

    2. Ускорение выдачи данных до 4 ч. с момента запроса

    3. Экономия бюджета и времени на сопровождение процессов работы с данными

    4. Снижение дублирования загрузки данных из источников

    5. Ускорение получения доступа к наборам данных для самостоятельного анализа бизнесом через сквозную ролевую модель

    6. Внедрен конвейер по работе с данными: от загрузки до подготовки витрин, проверок качества, каталогизации и описания данных, публикации витрин в магазине данных до создания аналитических приложений

    7. Для снижения трудозатрат внедрены шаблоны разработки, ролевая модель доступа, fast-track подключения источников, регламенты, гайды и программы обучения. Для стабильности платформы реализованы аналитические приложения от мониторинга ПО до объёмов наполнения платформы.

    Проект объединяет все элементы в систему для повышения конкурентоспособности компании. Благодаря платформе компания принимает быстрые и качественные решения и повышает эффективность работы при снижении рисков.

  • Уникальность проекта

    Архитектура системы состоит из самописных компонентов и на базе российских технологий. Из-за отсутствия готовых отечественных решений для работы с данными, проектная команда вместе с 5-ю вендорами разрабатывала и внедряла функционал решений первыми на рынке.

    Также уникальность и сложность проекта заключалась в необходимости построения единого конвейера по работе с данными (загрузка и обработка данных в хранилище; сканирование и описание данных в каталоге; реализация проверок качества данных; публикация данных в магазине; использование их в SS BI), конвейере, где все базируется на одних бизнес- и технических метаданных.

    При реализации проекта было устранено дублирование инструментария, что не только улучшило консистентность корпоративной архитектуры, но и принесло экономический эффект, связанный с лицензированием систем.

    Реализация шаблонов и регламентов разработки, формирование базы знаний, аналитическая отчетность по платформе позволили снизить трудозатраты на работу с данными.

  • Использованное ПО

    Инфраструктура:

    324 сервера, CPU 1584 vCore, Диски 42 Tb, 4,5 Tb памяти, 143 инстанса

    ПО:

    • Инструменты по интеграции и хранению данных (Arenadata DB, Arenadata QuickMarts, Apache Airflow, PostgresPRO, Plus7 FormIT, Hadoop, CedrusData)

    • Инструменты по каталогизации и описания данных (Plus7 EDM, In-house разработка портала «Технические метаданные», PostgresPRO, Apache Airflow)

    • Инструменты по верификации качества данных (Plus7 FormIT, Алмаз Мониторинг, In-house разработка портала «Качества данных», PostgresPRO, Apache Airflow)

    • Инструменты для визуализации и анализа данных (PIX BI, Luxms BI)

    • Инструменты для самостоятельного анализа данных (PIX BI, In-house разработка портала «Лаборатория данных», In-house разработка «Магазина данных»)

  • Решение из каталога Global CIO

    В проекте не используются решения из каталога Global CIO

  • Сложность реализации

    Основная сложность — отсутствие готового отечественного решения на рынке и необходимость высокотехнологической собственной разработки платформы по работе с данными, разрозненностью подходов по работе с данными в Блоках, дублированием инструментария. Серьезным вызовом стала необходимость:

    • Поиска и выбора отечественных компонентов

    • Разработки недостающих компонентов для эффективной работы платформы

    • Интеграции компонентов между собой с учетом стандартов информационной безопасности в компании

    • Обучение сотрудников новым инструментам по работе с данными

    • Создание единых регламентов и шаблонов разработки, гайдов по работе с инструментами и технологиям для выравнивания уровня компетенции специалистов.

  • Описание

    В 2024 внедрен единый конвейер данных: дата-платформа позволяет эффективно обрабатывать и анализировать данные. Это комплексное решение проблемы разрозненности инфраструктуры и ПО по работе с данными в компании. Внедрены инструменты для визуализации и анализа данных (PIX BI, Luxms BI – решения класса BI), инструменты по каталогизации и описания данных (Plus7 EDM, собственная разработка – решение класса DC)), инструменты по верификации качества данных (Plus7 ForrmIT, Алмаз Мониторинг, собственная разработка – решения класса DQ), инструменты по интеграции и хранению данных (Postgres, ADGP, ADQM, Plus7 FormIT, Airflow, Hadoop, CedrusData – решения класса ETL, DWH), инструменты для самостоятельного анализа данных, т.к. SS BI (PIX BI, собственная разработка).

    Для создания и внедрения единой корпоративной дата-платформы были предприняты следующие шаги:

    1. Определение продуктовой линейки. Был сформирован перечень технологических продуктов.

    2. Организация работы. Команда и функциональные заказчики начали работать на основе гибкой методологии. Технологические продукты предоставлялись поэтапно, а функциональные заказчики тестировали их функциональность и получали опыт работы с ними.

    3. Проверка требований информационной безопасности (ИБ). Были определены требования к технологическим продуктам, проведён анализ рынка инструментов, тестирование, проверка и подтверждение соответствия требованиям ИБ.

    4. Проектирование архитектуры. Была разработана целевая архитектура платформы.

    5. Разработка и внедрение продуктов. Были созданы и внедрены технологические продукты.

    6. Онбординг и сервис продуктов. Для пользователей был организован сервис «Единого окна», который маршрутизирует обращения по продуктам.

    7. Развитие продуктов. Заявки от пользователей обрабатываются через таск-трекер, оцениваются и приоритизируются. На основе этого формируется дорожная карта реализации, которая включает в себя реализацию функций, тестирование и передачу на обслуживание.

    Дата-платформа состоит из 5 продуктов:

    • Хранилище и доступ к данным. Обеспечивают загрузку, интеграцию и хранение данных, построение витрин для BI-приложений и использование данных для продвинутой ML-аналитики.

    • Каталог данных. Предоставляет единое окно доступа к информации о функции управления данными, автоматическое сканирование технических метаданных различных систем, бизнес-описание данных и категоризацию данных по подразделениям, процессам и другим объектам

    • Качество данных. Собирает и управляет бизнес-метаданными по качеству данных, автоматически создаёт проверки по качеству данных и осуществляет мониторинг и анализ проверок.

    • Бизнес-аналитика. Создание BI-приложения под ключ и предоставляют анализ и отображение аналитики для менеджеров различного уровня.

    • Лаборатория данных. Позволяют проводить самостоятельный анализ и решение задач по обработке и визуализации данных

      Также был создан интеграционный слой из более чем 40 внутренних и внешних интеграций, который соединяет инструменты между собой в единый процесс.

  • География проекта

    Компания ПАО Газпром нефть, включая дочерние общества

Комментировать 2

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Роман Кузнецов

    Роман Кузнецов

    ГК Интертехэлектро

    CDTO

    Добрый день! Очень интересный проект. Жаль нет какого-то более подробного материала по реализованной системе. Схемы архитектуры компонентов верхнего уровня, например.
    Ответить
    • Александр Чепкасов

      Александр Чепкасов

      ПАО Газпром нефть

      Начальник отдела развития цифровой платформы

      Добрый день, Роман!Архитектура компонентов верхнего уровня состоит из следующих инструментов:инструменты по интеграции и хранению данных (Postgres, ADGP, ADQM, Plus7 FormIT, Airflow, Hadoop, CedrusData – решения класса ETL, DWH)инструменты по верификации качества данных (Plus7 ForrmIT, Алмаз Мониторинг, собственная разработка – решения класса DQ)инструменты по каталогизации и описания данных (Plus7 EDM, собственная разработка – решение класса DC)инструменты для визуализации и анализа данных (PIX BI, Luxms BI – решения класса BI)инструменты для самостоятельного анализа данных, т.к. SS BI (PIX BI, собственная разработка)Мы готовы устроить референс визит для более подробного показа.
      Ответить
  • Заказчик

    ПАО Газпром нефть

    ПАО Газпром нефть

  • ИТ-поставщик

    DIS Group

    DIS Group

Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.