Первое в России внедрение «умного озера данных» – комплексной платформы обработки, хранения и анализа данных с интегрированным Data Governance

Заказчик:
Дирекция региональных продаж ПАО «ГАЗПРОМ НЕФТЬ»
Руководитель проекта со стороны заказчика
Поставщик
DIS Group (решения Informatica)
Год завершения проекта
2019
Сроки выполнения проекта
Январь, 2018 - Октябрь, 2019
Масштаб проекта
59000 человеко-часов
159 автоматизированных рабочих мест
Цели
Цель проекта – внедрить в едином решении комплексную систему для анализа данных и управления данными Дирекции региональных продаж ПАО «Газпром нефть». Основные ожидаемые бизнес-эффекты внедренного решения: снижение затрат на интеграцию данных, реализацию продуктивных аналитических проектов за счет централизованных инфраструктуры и сервисов, демократизация данных через общий пользовательский портал (доступ к единому бизнес-словарю всех аналитических витрин и приложений, актуальным картам происхождения, правилам и метрикам по качеству данных), повышение доступности данных и быстрое развертывание сред и предоставление датасетов для инициатив data science (с месяцев – до дней), повышение эффективности работы аналитиков (паспорта источников, объектов данных и их происхождение, инструменты профилирования и автоматической разметки всех данных в едином каталоге), обеспечение промышленных инструментов контроля и улучшения качества данных.

Уникальность проекта

Опубликованные кейсы внедрения «умного озера данных» в частных облаках в российской и международной практике не известны. «Умное озеро данных» существовало в исследованиях Gartner (напр., «Derive Value From Data Lakes Using Analytics Design Patterns», 2017) как наиболее продвинутый архитектурный шаблон для комплексных аналитических платформ. Концепция подразумевала совместную работу корпоративных озера данных, хранилища данных, средств их виртуализации с компонентами интеграции данных и Data Governance - DG - (управление метаданными, управление качеством данных, бизнес-глоссарий) таким образом, чтобы все категории пользователей могли получить доступ к актуальному каталогу, происхождению, правилам по качеству данных через единый пользовательский интерфейс. В мире подобные решения сейчас активно создаются вендорами в публичных облаках. Исследование Gartner Hype Cycle for Data Management (2019): решения DG сегодня еще не готовы к работе в качестве комплексной платформы управления данными.
Использованное ПО
«Умное озеро данных» включает в себя подсистемы Data Governance (каталог данных, управление качеством данных, бизнес-глоссарий, пользовательский портал обзора данных), компоненты интеграции данных, а также интегрированные с ними компоненты обработки «больших данных» (Data Lake на основе Arenadata Hadoop), аналитическое хранилище данных (Microsoft SQL Server 2017), BI (Qlik), аналитическую лабораторию с набором инструментов Data Science. Подсистемы Data Governance реализованы на платформе Informatica (Informatica Axon, Informatica Enterprise Data Catalog, Informatica Data Quality, Informatica Big Data Management, Informatica PowerCenter). Партнером по поставке и поддержке внедрения продуктов Informatica выступила компания DIS Group, официальный представитель вендора в России и СНГ Решение работает на 48 физических серверах и использует 12 выделенных систем хранения данных (СХД), оборудование размещено в Центре обработки данных ПАО «Газпром нефть» в Санкт-Петербурге. Ведется активная работа по интеграции компонент «умного озера данных» с существующими DevOps–инструментами. Это позволит автоматизировать рабочие процессы инжиниринга данных, тестирования, выпуска релизов и в дальнейшем прийти к внедрению SLA («данные как сервис») по типовым задачам поставки данных для различных категорий бизнес-заказчиков и команд аналитиков.
Сложность реализации
Проект создания «умного озера данных» первый в российской практике, у команды проекта не было возможности при его реализации опираться на опыт предшественников. При выполнении проекта были разработаны, апробированы и внедрены подходы, обеспечивающие связную работу компонент решения в специфике аналитических задач. В частности, для успеха понадобилось развернуть в обратном направлении поток метаданных между модулями интеграции и управления данными Informatica. Специально для сценария работы «умного озера данных» вендором Informatica в ходе проекта было выпущено более 20 локальных патчей, а командой – создано большое число дополнительных поддерживающих инструментов. Внедрённый сценарий интеграции данных с автоматической передачей в компоненты Data Governance потребовал радикальных изменений в практике разработки. В ходе проекта в результате совместной 7-месячной работы команды проекта с вендорами Arenadata и Informatica удалось впервые в истории обеспечить успешную совместную работу российского ПО Arenadata Hadoop со следующими компонентами платформы: Informatica Big Data Management, Enterprise Data Catalog, Data Quality. В ходе проекта на уровне всех компонент, ландшафтов и ролевой модели в результате многомесячной работы с Центром защиты информации были обеспечены требования к защите информации по стандартам группы «Газпром», решение успешно сертифицировано для работы с коммерческой тайной и персональными данными.
Описание проекта
Дирекция региональных продаж ПАО «Газпром нефть» (управляет сетью >1800 АЗС в России, СНГ и странах Восточной Европы, >800 магазинов и кафе, сетью собственных топливных терминалов, производит биржевые и оптовые продажи, доставку и контроль качества нефтепродуктов). Решение «умное озеро данных» реализует продвинутую аналитическую архитектуру, в которой компоненты обработки, хранения и анализа данных (Data Lake, хранилище данных, лаборатория Data science) работают в тесной интеграции с компонентами Data Governance (каталог данных, управление качеством данных, бизнес-глоссарий, пользовательский портал обзора данных). «Умное озеро данных» включает в себя интегрированные: · подсистемы интеграции, обработки и хранения данных (включая Data Lake и хранилище данных) · единый каталог правил по качеству данных с управлением и мониторингом · систему управления метаданными: каталог доступных источников, таблиц, витрин, моделей данных и отчетов + цепочки происхождения данных · пользовательский портал по данным: поиск объектов данных, владельцев, ролей, датасетов, просмотр актуальных цепочек происхождения и правил по качеству данных и т.д. · лабораторию Data Science для исследования гипотез и построения новых моделей на основе данных Шаблон архитектуры рекомендован компанией Gartner и рассматривается как целевой в DataOps – зарождающихся практиках операционализации аналитики и демократизации данных в крупных организациях. «Умное озеро данных» имеет два ландшафта (тестовый и продуктивный) и три зоны («Сырой слой» для хранения копий данных из источников, «Продуктивная фабрика данных» с фокусом на оптимизацию, производительность и управление, «Исследовательская лаборатория» для задач прототипирования аналитических моделей) с различным уровнем управления данными для разных режимов работы. Основной сценарий разработки в «умном озере данных» подразумевает применение промышленных средств интеграции данных Informatica (Big Data Management, PowerCenter) над озером данных (Hadoop) и хранилищем данных (MS SQL Server 2017) таким образом, чтобы обеспечить автоматическую загрузку структур, цепочек происхождения, формул преобразования данных и выборок данных до полей в каталог данных Informatica (Enterprise Data Catalog). В каталоге данных производится паспортизация источников данных, таблиц и витрин, разметка данных по доменам с помощью настроенных шаблонов (например, для коммерческой тайны и персональных данных), а также профилирование данных (выявление типов и масок для полей данных, схожесть с полями других таблиц и т.д.). Кроме этого, в каталоге данных настраивается связь между объектами технических метаданных и бизнес-метаданных, что в дальнейшем обеспечивает бесшовную интеграцию с бизнес-глоссарием. Компонента управления качеством данных Informatica (Data Quality) позволяет вести единый каталог правил по качеству данных, обогащать его (уровень критичности, аспекты качества, теги для правил), бесшовно интегрировать в ETL-цепочки над озером и хранилищем данных, что дает возможность просматривать статус и историю выполнения каждого правила. Бизнес-глоссарий Informatica позволяет вести паспорта бизнес-объектов данных (определения, методики расчёта, связь с владельцами, стюардами, бизнес-процессами), управлять изменениями. Между объектами глоссария выстраиваются связи (иерархические, логические связи, которые могут характеризоваться характером самой связи, обязательностью и множественностью). Пользовательский портал Informatica Axon автоматически объединяет информацию из каталога данных, компоненты управления качеством данных и бизнес-глоссария, предоставляет массовый доступ для пользователей. Портал позволяет проводить поиск бизнес-терминов, просматривать паспорта бизнес-объектов, их связи с другими объектами, историю изменений, связанные правила по качеству данных и датасеты на уровне хранилища, цепочки происхождения данных и формулы преобразования данных на этапах ETL. Кроме этого, пользователям портала доступны актуальные статусы и история правил по качеству данных, а также сводные дашборды по качеству данных. В ходе проекта при разработке озера данных и хранилища данных апробировались и применялись подходы, которые в итоге позволили получить уникальный функционал: автоматическое построение происхождения данных (data lineage) до полей и автоматическая разметка в каталоге данных, единый управляемый каталог правил по качеству данных, интегрированный с ETL и бизнес-глоссарием, автоматический мониторинг качества данных по каждому датасету и др. Для этого пришлось значительно изменить культуру разработки и создать большое количество инструментов для автоматической передачи данных и метаданных между компонентами решения. Возможность реализации «умного озера данных» в Дирекции региональных продаж ПАO «Газпром нефть» обусловлена очень зрелым уровнем развития централизованной BI-системы, в которой за 7 лет развития были интегрированы более 140 внутренних и внешних источников данных, а также многолетней работой подразделений системного анализа и управления качеством данных. Всё это позволило формализовать большое количество связанных с аналитикой терминов, методик и правил, а также автоматизировать ключевые процессы подготовки данных. Для реализации проекта в Дирекции региональных продаж ПАO «Газпром нефть» был создан Центр аналитических решений, включивший подразделения системного анализа, группы разработки, управления метаданными, управления качеством данных и data science. Это позволило создать «с нуля» сильную компетентную команду, достичь соглашений по многим технологическим аспектам и успешно выполнить реализацию без привлечения внешних подрядчиков. Развитие решения «умное озеро данных» идет «снизу вверх»: от конкретных бизнес-кейсов, связанных с интеграцией и продвинутой аналитикой данных. Такой подход приводит к охвату внедренными инструментами Data Governance важных для Компании данных в порядке бизнес-приоритетов. На текущий момент около всех 50% аналитических проектов и инициатив Дирекции региональных продаж ПАO «Газпром нефть» уже реализуется в контуре «умного озера данных», план на 2020 год – охватить не менее 75%.
География проекта
«Умное озеро данных» развернуто в Центре обработки данных «Газпром нефти» в Санкт-Петербурге. Его пользователями являются аналитики бизнес-подразделений Дирекции региональных продаж, которые расположены в 29 регионах России и четырёх странах СНГ. Кроме этого, созданное решение является поставщиком данных для различных систем в контуре Компании и в целевом виде – для внешних партнеров.
Дополнительные презентации:
Подробное описание проекта умного озера данных, Газпром нефть.pdf
Коментарии: 57

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • 02.12.2019 16:51

    Data Governance программа заслуживает уважения!

    5 баллов (по 5-ти бальной шкале)

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      14.12.2019 19:22

      Александр, благодарю! Буду рад прокомментировать, если у Вас будут дополнительные вопросы. Мы фокусируемся на создании аналитических решений в интересах бизнеса, при этом Data Governance инструменты внедряются только при реализации практических кейсов, и Data Governance программа развивается вместе с заказчиками.

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      16.12.2019 22:08

      Мы также будем рассказывать подробнее про эволюцию нашей практики управления качеством данных в аналитических решениях на конференции "Качество данных 2020" в Москве 05.02.2020: https://www.osp.ru/iz/dataquality2020/
      Приглашаю!

  • Андрей Петухов
    Рейтинг: 236
    ПАО "Ростелеком" Северо-Запад
    Региональный ИТ директор
    09.12.2019 11:33

    Иван, а какие открытые внешние источники данных использует ваше решение при формировании предсказательных моделей? Или это еще в планах?

    • Иван Черницын Андрей
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      14.12.2019 19:13

      Андрей, добрый день! Из уже интегрированных внешних источников могу назвать Санкт-Петербургскую международную товарно-сырьевую биржу (Spimex), App Store и Google Play (обратная связь по мобильным приложениям ГПН), AppMetrica и Яндекс.Метрика (сквозная аналитика), сайты ЦБ РФ и стран СНГ

    • Иван Черницын Андрей
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      14.12.2019 19:18

      Кроме этого, мы используем различные онлайн-сервисы для промежуточной обработки данных. Например, базу данных "Автокод", сервисы построения маршрутов на карте, распознавания изображений, парсеры социальных сетей и сайтов новостей/отзывов, специфичные сервисы машинного обучения

    • Иван Черницын Андрей
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      14.12.2019 19:21

      Про планы. В ближайшее время в наше озеро данных будут интегрированы данные СПАРК-Интерфакс (через платный шлюз), геоданные (OpenStreetMap и собственные слои) и погодные данные для рассчитываемых оффлайн моделей, а также Портал открытых данных РФ

  • Алсу Янбекова
    Рейтинг: 5
    ПАО Мтс
    Руководитель группы продаж
    18.12.2019 17:12

    Иван, добрый день! Интересный проект. После полученного опыта когда и где целесообразно внедрять Data Governance, а где нет?

    • Иван Черницын Алсу
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      25.12.2019 13:09

      Алсу, добрый день!
      Короткий вопрос, но большая тема.
      Data Governance нужно внедрять с начала автоматизации во всех организациях. Данные - актив, способный приносить прибыль, и от его качества критично зависят бизнес-решения.
      Базовые тезисы из принципов управления данными (DAMA DMBoK):
      - управление данными подразумевает управление качеством данных;
      - требования к управлению данными должны оказывать определяющее влияние на решения в области ИТ

    • Иван Черницын Алсу
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      25.12.2019 13:12

      Другой вопрос: когда нужно внедрять специализированные инструменты Data Governance. На этапе первичной автоматизации с задачами ведения терминов, правил и ролей справится и Excel, здесь важнее организовать работу всех подразделений по единым правилам.

    • Иван Черницын Алсу
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      25.12.2019 13:20

      Самое главное на старте - обеспечить доверие бизнес-сотрудников к данным и единую терминологию.
      Поэтому сразу при первичной автоматизации необходимо внедрять систему управления нормативно-справочной информацией (НСИ, Master Data Management), а также единую терминологию для отчетности в базовых модулях/системах. Это как основа, без которой дальше будет сложно развивать аналитику.

    • Иван Черницын Алсу
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      25.12.2019 13:27

      Затем будет большая выгода в создании портала навигации по данным, где пользователи могут искать нужные данные, видеть их паспорта (определения), переходить к отчетам/моделям с ними, а также заказывать роли для доступа. Всего этого будет достаточно на этапе развития самообслуживаемого BI. И в нашей практике мы 5 лет использовали BI как систему накопления и мониторинга требований к качеству данных

    • Иван Черницын Алсу
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      25.12.2019 13:32

      И уже на этапе создания аналитической платформы мы пришли к необходимости внедрения каталога данных (для паспортизации источников и системных таблиц, построения диаграмм происхождения данных) и отдельной системы управления качеством данных, интегрируемой с BI и пользовательским порталом. Это уже дорогие и сложные во внедрении инструменты Data Governance

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    25.12.2019 18:09

    Иван, спасибо за подробную информацию по проекту. Делали ли в проекте контроли качества потоковых технологических данных, геоданных и других сложных типов данных? Если да, то какие решения для этого использовали?

    • Иван Черницын Станислав
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:44

      Станислав,
      В объеме проекта не было задач хранения сложных видов данных. Целью проекта "умное озеро данных" было создание комплексной платформы, настройка совместной работы компонент интеграции, хранения данных и Data Governance. Даже для структурированных данных это оказалось тяжелой задачей, мы только около года отлаживали с вендорами совместную работу компонент. Кроме этого, мы с нуля целиком сформировали внутреннюю команды разработчиков и администраторов и за время проекта прошли путь от вообще знакомства с технологиями Big Data и Data Governance до зрелой практики.

    • Иван Черницын Станислав
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:51

      Задачи потоковой обработки и интеграция неструктурированных данных стоят у нас в очереди на 2020 год. Безусловно, для контроля качества будет использоваться Informatica Data Quality, так как это позволит нам включить все правила проверки в единый управляемый каталог (что является одной из ключевых задач "умного озера данных"). Интеграция и обработка данных будет производиться с использованием Infornatica Big Data Management (BDM), и в некоторых случаях BDM будет выступать оркестровщиком над Informatica Streaming, сервисами NiFi, собственными разработками.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    25.12.2019 18:11

    и еще один вопрос почему решили не использовать ПО с откртытым исходным кодом?

    • Иван Черницын Станислав
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      26.12.2019 17:24

      Станислав, добрый день!
      В 2016 году, когда возникла идея системы Data Governance, мы провели вместе с фондом "Сколково" исследование рынка соответствующих решений, прежде всего российского и open-source. И мы увидели, что хотя есть решения, закрывающие отдельные задачи (управление качеством данных, каталог данных, бизнес-глоссарий и др.), они 1). имеют очень мало внедрений при сложном заявленном функционале; 2). никак не связаны между собой. То есть создание интегрированной системы мультивендорной или open-source системы Data Governance - отдельный проект, требующий едва не пару лет на R&D и отладку. Об этом же явно пишет Gartner в своих исследованиях.

    • Иван Черницын Станислав
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      26.12.2019 17:29

      И тогда мы посмотрели на вариант использования компонент Informatica, имеющих множество внедрений в мире, и сделали ставку на то, что компоненты от одного вендора с большой вероятностью должны хорошо интегрироваться. Над Informatica планировали создать своими силами пользовательский портал для обзора бизнес-глоссария, каталога и происхождения данных, каталога правил по качеству данных.

    • Иван Черницын Станислав
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      26.12.2019 17:31

      В момент нашего предварительного выбора компания Информатика поглотила своего партнера Diaku (это февраль 2017 года), и в линейке появился новый продукт Informatica Axon, который как раз представлял собой пользовательский портал над другими Data Governance компонентами. Мы увидели, что: 1). стратегия вендора совпадает с нашим видением развития функционала управления данными; 2). для Informatica рынки Data Governance являются единственными, так что все усилия вендора направлены на обеспечение лучшей в мире функциональности.

    • Иван Черницын Станислав
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      26.12.2019 17:36

      При практическом внедрении выяснили, что даже внедрение платформы Data Governance на проприетарных и дорогих компонентах от одного вендора - крайне сложная задача. Помощь вендора нам понадобилась многократно в ходе проекта. И еще сложнее оказалось обеспечить стандарты разработки на всех этапах интеграции и трансформации данных, чтобы работала автоматическая интеграция с каталогом данных (в частности, автоматически строился data lineage). Мы потеряли несколько квалифицированных разработчиков в ходе проекта из-за их неприятия нашего подхода, и с новой командой находим все больше успешных решений для различных бизнес-кейсов.

  • Максим Феопентов
    Рейтинг: 93
    Евраз
    Директор по развитию цифровых технологий
    27.12.2019 10:54

    Иван, добрый день!

    Расскажите, пожалуйста, а какое решение вы использовали для построения "сырого слоя" данных (реплики источников MES, CRM, ERP)? Реплики хранятся в Hadoop? Тогда интересен инструмент загрузки данных в Hadoop, это собственный фреймворк/Spark/Informatica? Были ли проблемы с производительностью, каковы объемы данных? Как вы реализовали update в hdfs?

    Спасибо

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:14

      Максим, добрый день!

      Для загрузки данных из указанных классов систем используется batch режим. В зависимости от загружаемого объекта, batch может snapshot или инкремент.

      Загрузка данных в hdfs - hive: ELT реализован на компонентах Informatica + Sqoop. Проекты разработаны в Informatica Big Data Management, с использованием динамических mappings, исполняемы в Spark-режиме на нодах Hadoop.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:16

      Так как данные этих источников по большей части структурированы, хранение осуществляется в hive. Update как таковой не используется. Обновление производится batch-ем и выполняется в hive с использованием инструкции insert owerwrite table.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:21

      Проблемы были и есть, так как для создания snapshot данных в системах требуется одновременно загружать несколько тысяч объектов. Кроме того, необходимо обеспечить автоматическое попадание структур данных и цепочек трансформации (data lineage) в data catalog, а ради этой цели мы многократно переделывали уже работающие инструменты в поисках лучшего решения.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:26

      Мы не ставили задачу загрузки максимального объема данных на сырой слой. Основной целью проекта "умное озеро данных" было создание комплексной платформы, настройка совместной работы компонент интеграции, хранения данных и Data Governance, с обкаткой на практических кейсах. И большая часть ресурсов была потрачена (и еще тратится) на R&D для этой цели. Исходно компоненты в связке не работали, и вендоры Arenadata и Informatica выпустили специальные релизы и большое количество заплаток специально по требованиям нашего проекта (практически весь 2018 год мы тестировали и добивались того, чтобы все в связке заработало). Даже после того, как интеграция заработала, мы получили очень низкий темп разработки с учетом всех ограничений. И сфокусировались на выработке шаблонов и практик для ускорения темпа на порядки, это у нас сейчас шаг за шагом получается.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      27.12.2019 15:33

      Объёмы данных в сыром слое на текущий момент менее 100 Тб. При этом бизнес-критичные (для отчетности и аналитических моделей) конвейеры, например, обработка транзакций всех АЗС и частично клиентская аналитика, реализованы были без использования сырого слоя, только в хранилище. Причины указаны выше, долгое время связка Arenadata Hadoop и Informatica не работала стабильно. В будущем мы добавим источники этих конвейеров на сырой слой.

  • Татьяна Скобелева
    Рейтинг: 5
    ПАО Сбербанк
    Руководитель юнита
    27.12.2019 17:32

    Добрый день! Очень интересный проект! Кем формулировались связи в каталоге данных между объектами технических метаданных и бизнес-метаданных? И как насколько гибкие эти связи?

    Заранее спасибо!

    • Иван Черницын Татьяна
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 16:58

      Татьяна, добрый день!
      Созданием связей между техническими и бизнес метаданными занимается выделенное подразделение в нашей команде - группа по управлению метаданными.
      Связи строятся вручную, на текущем этапе принято решение выстраивать связи для сырого слоя данных и витринного слоя.

    • Иван Черницын Татьяна
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 17:00

      Сейчас процесс организован следующим образом (по мере наполнения каталога данных он, определенно, будет изменяться):



      1. Подразделение (группа) системного анализа предоставляет другим участникам ТЗ на разработку таблиц (т.е. по завершению данного этапа известны таблицы-источники и витрины).

    • Иван Черницын Татьяна
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 17:01

      2. ТЗ передаётся в разработку и параллельно группе по управлению метаданными, которые осуществляют предварительное описание метаданных, заявленных в ТЗ, продумыванием бизнес-терминов и связей, поиск владельцев для новых объектов данных.

    • Иван Черницын Татьяна
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 17:02

      3. После реализации ТЗ, приёмки подразделением информационной безопасности, системными аналитиками и заказчиками кейсы подключаются к data catalog (Informatica EDC) для автоматического считывания технических метаданных.

    • Иван Черницын Татьяна
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 17:05

      4. После подключения и проверки кейсов в data catalog (Informatica EDC) производится доописывание метаданных, занесение описаний в системы, ручная связка бизнес и технических метаданных. Если были найдены владельцы данных, то параллельно запускается процесс согласования и доработки описаний с ними.

  • Евгений Гладнев
    Рейтинг: 10
    ООО ИТСК
    Сервис-менеджер
    28.12.2019 20:19

    Добрый день! Интересное решение! Есть ли ограничение на количество подключаемых ресурсов?

  • 30.12.2019 09:45

    Иван, отличный проект! Подскажите, а кто должен быть в команде, чтобы успешно реализовать такой проект?

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 18:35

      Андрей, добрый день!
      Наша особенность в том, что все исполнители проекта собраны в одном подразделении, и сторонние подрядчики не привлекались. Состав ролей команды и общий функционал приведены в презентации, прикрепленной к проекту (см. "Дополнительные презентации"), слайды 35-37. По функционалу отдельных ролей готов прокомментировать дополнительно.

  • Эдуард Перваков
    Рейтинг: 18
    Альфа-банк, АО
    Руководитель группы тестирования
    30.12.2019 13:32

    Делаете ли вы что-то для продвижения аналитической культуры в компании? Что именно? С какими сложностями приходится сталкиваться при продвижении проекта?

    • Иван Черницын Эдуард
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 20:55

      Эдуард, добрый день!
      У нас централизованная BI-система, интегрирующая более 140 источников, и здесь единая бизнес-терминология и единая версия ключевых данных. По BI мы много лет проводим обучающие курсы для сотрудников, всего за 5 лет прошли обучение более 1200 человек. В этом году в сентябре провели совместный форум с Qlik на нашей территории, в котором приняли участие крупнейшие клиенты Qlik в Росиии, и на который пришло большое число наших бизнес-сотрудников и руководителей.

    • Иван Черницын Эдуард
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 20:59

      Мы исторически проводим в Лектории ДРП большое количество семинаров по аналитическим решениям и технологиям, на которые приходят бизнес-сотрудники; один из таких семинаров для нас провел партнер - компания Gartner. У нас проходит (в среднем каждые 2 недели) открытый Data Science Meetup, на котором сотрудники и приглашенные эксперты разбирают кейсы с продвинутой аналитикой. Все это рассчитано на всех бизнес-сотрудников, которые используют или хотят использовать аналитические решения либо изменить свою роль в подразделениях.

    • Иван Черницын Эдуард
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 21:03

      В начале 2019 года мы создали группу развития компетенций по анализу данных, это часть нашего централизованного аналитического подразделения, организующая работу внутренних тренеров. И через несколько месяцев у нас появилась матрица компетенций, включающая как технические, так и нетехнические навыки, уровни развития компетенций, индикаторы их наличия. К этой матрице привязаны программы обучения, семинары и тесты. За 2019 год более 400 специалистов прошли обучение по Python, SQL, машинному обучению и применению аналитики в различных направлениях бизнеса.

    • Иван Черницын Эдуард
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 21:06

      Сейчас разрабатываем онлайн-курсы для удаленных сотрудников и программы тестирования. В дальнейшем сотрудники, которые не прошли тесты, подтверждающие соответствующие компетенции, не будут допускаться к работе со сложными аналитическими инструментами. Неподготовленные сотрудники не должны дискредитировать своими действиями (например, некорректной интерпретацией результатов сложных аналитических моделей) всю аналитическую программу. То есть речь идет о постепенно расширяющейся сертификации сотрудников и кандидатов, работающих с аналитикой.

    • Иван Черницын Эдуард
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      30.12.2019 21:10

      Проект "умное озеро данных" и создание Центра аналитических решений в ДРП долго обосновывались и защищались. Но сейчас у нас определенно есть поддержка высшего руководства, и благодаря этому многие вопросы решаются быстро. Пример - недавнее интервью директора ДРП А.В.Крылова: https://incrussia.ru/understand/alexander-krylov/

  • Максим Куликов
    Рейтинг: 6
    Газпром информ
    Начальник отдела
    30.12.2019 15:20

    Решение выглядит очень масштабным и продуманным, действительно cutting edge! Пользуясь моментом, хотел бы уточнить: какой подход был выбран для работы с большими массивами данных: горизонтальное масштабирование на относительно дешевых и небольших серверах или использование небольшого количества емких in-memory решений (например, для QLik)? Или может быть смешанный вариант?

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      02.01.2020 21:02

      Максим, добрый день!
      Мы только в начале пути с Big Data, и принятый подход крако описан в прилагемой к проекту презентации; конечно, он смешанный. И наша особенность в том, что мы имели на старте очень масштабную унаследованную BI-систему, реализующую продуктивные конвейеры обработки и связывания данных из >140 внутренних и внешних систем-источников.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      02.01.2020 21:04

      Горизонтально масштабируемый Hadoop используется как сырой слой и среда для параллельных вычислений. Задачи ELT для продуктивного использования реализованы на Informatica Big Data Management, исполняются в Spark-режиме на нодах Hadoop. Для протипирования данные могут быть загружены любыми доступными нструментами (NiFi, Python и др.) и переданы в аналитический сегмент (sandbox) в виде датасета. В начале 2020 года будет настроен вызов Spark-задач из sandbox, это в большой мере вопрос согласования с подразделением информационной безопасности.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      02.01.2020 21:09

      При выборе СУБД для хранилища мы отказались от горизонтально масштабируемых MPP, так как: 1). все бизнес-кейсы в обозримой дорожной карте позволяли обойтись без MPP, но при этом некоторые из них являлись бизнес-критичными; то есть крайне надежная работа хранилища требовалась с самых первых задач; 2). фокус проекта был в настройке интегрированной платформы Data Governance, и все прочие внедряемые компоненты (Hadoop, Informatica) были для нас совершенно новыми.

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      02.01.2020 21:13

      Поэтому мы остановились на проверенном и достаточно производительном варианте с MS SQL Server 2017. Так как используем выделенные компоненты data integration (от Informatica), добавление в будущем новых специфических СУБД с сохранением логики обработки данных и конвенций Data Governance не является проблемой. Gartner называет архитектуру c такой идеологией Logical Data Warehouse (LDW).

    • Иван Черницын Максим
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      02.01.2020 21:19

      BI-компоненты используются прежде всего для визуализации уже подготовленных данных из хранилища, а также визуализации результатов прототипирования в sandbox. Уникальные особенности платформы Qlik позволяют быстро создавать полноценные конвейеры для обработки данных, и далее дешево их поддерживать. Поэтому часто меняющиеся расчеты (прежде всего, это различная управленческая отчетность) мы, скорее всего, оставим на Qlik. Окончательный подход здесь будет приходить с практикой; при выборе целевого варианта в каждом случае будем опираться на стоимость изменений для внутренних заказчиков.

  • Алексей Цыганов
    Рейтинг: 5
    Газпром нефть
    Архитектор
    30.12.2019 16:52

    Иван, добрый день.
    Действительно прекрасный проект. Видел, что подключено большое количество источников, есть ли прогнозы на подключение источников в 2020 году?

  • 03.01.2020 12:42

    С продуктами Informatica приятно работать, много возможностей точечной кастомизации. А в комплексе они дают ещё бОльшие возможности.
    Подскажите, а в данном проекте возможна разметка систем источников как мастер-систем по определённым данным? Т.е. если одни и те же данные встречаются в разных системах, то из какого источника брать их более правильно, до уровня атрибутов? Есть ли сейчас в проекте возможность такой разметки систем источников? И какой именно из продуктов данного проекта для этого лучше использовать?

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      05.01.2020 17:52

      Наталья, добрый день!
      Функционал, о котором Вы спрашиваете, лучше всего реализуется в каталоге данных - Informatica Enterprise Data Catalog (EDC). Есть несколько способов реализации, они зависят от используемой версии EDC. Мы используем версию 10.2.1, про нее напишу в первую очередь.

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      05.01.2020 17:57

      Способ 1. Использовать возможности разметки объектов (активов данных) в каталоге с помощью доменов и композитных доменов. Мы это применяем для автоматизации отнесения таблиц/витрин к бизнес-областям, а также к разделам коммерческой тайны и персональным данным; иллюстрация идеи на слайде 26 прилагаемой к проекту презентации. Разметка работает до уровня атрибутов.

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      05.01.2020 18:06

      Способ 2 (оптимальный). Новые возможности EDC 10.2.2: 1). сертификация источников и вообще объектов в каталоге, 2). экспертная оценка объектов в каталоге. См. описание в документации "Informatica 10.2.2. New Features Guide": https://kb.informatica.com/proddocs/Product%20Documentation/7/IN_1022_NewFeaturesGuide_en.pdf, страницы 19-20.

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      05.01.2020 18:10

      Мы планируем этот функционал (способ 2) широко применять после обновления на версию 10.2.2, которое произведем в 1 квартале 2020 года. Еще больше возможностей в только что вышедшей платформе 10.4, см. "Informatica 10.4.0. Release Guide": https://docs.informatica.com/content/dam/source/GUID-5/GUID-56E6C3E7-A383-4D98-AA41-BE0F286564B1/49/en/IN_1040_ReleaseGuide_en.pdf, страницы 46-48.

    • Иван Черницын
      Рейтинг: 825
      Газпром нефть, ПАО
      Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта
      05.01.2020 18:13

      Способ 3. И конечно, можно использовать метки (теги) и произвольные поля (custom fields) для ручной разметки. Начиная с версии 10.2.2, по произвольным полям работает полноценный поиск в каталоге.
      Все указанные способы применимы не только для систем-источников, но и для произвольных таблиц и витрин на любом уровне агрегации.

  • Татьяна Орлова
    Рейтинг: 377
    ЗАО "ЕС-лизинг"
    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
    07.01.2020 12:07

    Задумка очень грамотная. Сложность осознается. Пожелание - не останавливаться только на перечисленных областях применения: такой подход универсален и, как мне кажется, может быть востребован в более близких к производству областях с максимальной эффективностью. Да и про внешнее использование тоже можно подумать. Главное - заложить инструмент гибкого обновления и управления. Удачи.

  • Константин Мухин
    Рейтинг: 15
    ПАО Газпром
    Главный специалист
    10.01.2020 11:31

    Иван, масштабный проект, видна зрелость бизнес заказчика. Хочу поддержать тему с решениями кейсов в разных предметных областях , есть ли планы на использование умного озера данных в юридическом сопровождении, в промышленной безопасности, охране окружающей среды, энергосбережении?

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.