Сервис интеграции и анализа данных

Заказчик:
ПАО "Газпром нефть"
Руководитель проекта со стороны заказчика
Поставщик
ООО "Газпромнефть - Цифровые решения"
Год завершения проекта
2020
Сроки выполнения проекта
Июнь, 2018 - Декабрь, 2020
Масштаб проекта
40000 человеко-часов
Цели

Создание технологического сервиса интеграции и анализа данных для массового сбора, хранения, последующей обработки и трансформации разнородных данных (структурированных и неструктурированных) вне зависимости от их источника и реализации аналитических задач различного уровня сложности в целях:

  • Сокращения времени вывода продукта (Time to market) за счет акселерации инициатив по анализу данных, быстрого выделения ресурсов управления данными, переиспользования данных и доступных инструментов ETL;

  • Сокращения стоимости инициатив за счет переиспользования данных, эффективного использования инфраструктуры и ПО, и «единого окна» по работам.

Уникальность проекта

  1. Линейная масштабируемая архитектура с использованием импортонезависимых компонентов.
  2. Разработка фреймворков динамической загрузки данных из систем источников как в пакетном режиме, так и в режиме близком к реальному времени.
  3. В разнородной многокомпонентной платформе реализованы механизмы ИБ, в том числе с межкомпонентной аутентификацией с применением протокола Kerberos.
  4. Реализуется внедрение модели управления доступом на основе атрибутов данных.
  5. Наполнение Сервиса разнородными данными из более чем 20 внутренних и внешних систем-источников данных компании.
  6. Создание Центра компетенций по сопровождению и развитию технологий работы с BigData.
Использованное ПО

Arenadata DB, Arenadata Hadoop, Arenadata Streaming, Informatica DEI/PC, PostgresPro,Серверы Lenovo (ThinkSystem SR650), блейд система Huawei (E9000) и сервера CH121 V5, СХД (OceanStor 5500 v5 и 6800 v5), Nvidia Tesla v100.

Сложность реализации

  • Узкая и дефицитная экспертиза внутри компании и на рынке.

  • Сложный многокомпонентный технологический стек.

  • Многоуровневое и объемное межпроектное взаимодействие внутри группы компаний.

  • Сложные интеграционные потоки, необходимость доработок на стороне источников-данных.

Описание проекта

Реализация общедоступного промышленного линейно-масштабируемого ИТ-решения в периметре ПАО «Газпром нефть», для массового сбора, хранения и последующей трансформации разнородных данных вне зависимости от их источника, включая возможность формирования кросс-функциональной отчетности на уровне всех подразделений ПАО «Газпром нефть» и ее дочерних предприятий.

Проект реализуется с 2018 года в соответствии со стандартами управления ИТ-проектами с использованием гибких методологий. За три года ведения проекта реализованы основные задачи по разработке и внедрению функционала. В настоящее время ИТ-решение проходит ОПЭ. Проект и ИТ-решение включены в программу компании по созданию единой Цифровой платформы. По итогам реализации проекта запланирована передача ИТ-решения на сервис и последующее развитие функционала.
География проекта

Платформа предназначена для использования как в ПАО «Газпром нефть», так и всех ее дочерних обществах.

Коментарии: 141

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    25.11.2020 11:05

    Добрый день, Андрей.

    Спасибо за подробное описание проекта. Было много споров между только реляционной архитектурой или только Hadoop. Интересно, что используется гибридная архитектура. Чтобы лучше понять почему был такой выбор позвольте задать вам несколько вопросов:

    1. Какие типы данных собираются?
    2. Есть ли процессы обеспечения качества данных?
    3. Есть ли экономический эффект от внедрения?

  • Андрей Белевцев
    Рейтинг: 753
    Сбербанк, ПАО
    Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
    01.12.2020 14:47

    Добрый день!

    Сервис позволяет собирать и обрабатывать данные различных форматов из разнородных источников. На текущий момент уже разработаны фреймворки загрузки, как классических источников данных: файлы, очереди сообщений, основные промышленные РСУБД, так и данных в отраслевых стандартах: ZGY, WITSML.
    На базе сервиса развернут и интегрирован стек инструментов для поддержки процессов управления данными (Data Governance), включающий в себя инструменты ведения бизнес-глоссария, моделирования, контроля качества данных и управления метаданными.
    Проект внедрения сервиса является больше инфраструктурным. Экономический эффект ожидается от бизнес-решений, реализованных с его использованием, за счет сокращения времени вывода и стоимости реализации продуктов, основанных на данных, переиспользования данных, более эффективного использования инфраструктуры и лицензий на ПО. Получение положительного экономического эффекта уже подтверждено на пилотном объеме реализованных бизнес-инициатив.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    02.12.2020 16:16

    Добрый день, спасибо за развернутый ответ.

    Теперь стало понятнее почему была выбрана именно такая архитектура, а также различные инструменты по загрузке данных. Также, мне кажется, проект интересен тем, что используются как open source технологии, так и проприетарное ПО.

    Подскажите, какой текущий объем данных и насколько трудоемка поддержка Hadoop?

    • Дмитрий Капинос Станислав
      Рейтинг: 291
      МГУ, Экономический факультет
      Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
      29.12.2020 00:16

      Станислав, если я не ошибаюсь, всё перечисленное ПО тут проприетарное (коммерческие лицензии). Хотя большая его часть и основана на СПО.

      Или ошибаюсь?

      • Станислав Тарасов Дмитрий
        Рейтинг: 145
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        30.12.2020 17:21

        Дмитрий, В целом Вы правы. Просто я смотрю, что часть стека, например Arenadata DB и стриминг, по сути это опен сорс с поддержкой\добавкой от местного вендора. То есть с хорошей командой можно просто взять голый Гринплам и Nifi стриминг. делать на них. Informatica же только проприетарная версия. Отсюда и вопрос чем выбор обсуловлен. Почему тот же nifi не взять для пакетной загрузки.

        • Станислав Тарасов Станислав
          Рейтинг: 145
          ГУП «Мосгортранс»
          Заместитель начальника отдела бортового оборудования
          30.12.2020 17:22

          Андрей, день добрый.

          Помогите нам с Дмитрием разобраться все-таки есть у вас чистый опен сорс или все с вендорской поддерджкой. И почему такой был выбор. Заранее спасибо!

          • Андрей Белевцев Станислав
            Рейтинг: 753
            Сбербанк, ПАО
            Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
            06.01.2021 00:11

            Привет всем!

            Мы используем версии ПО с поддержкой вендоров. Их развитие все же немного опережает полностью опенсорсные версии:). Как минимум, в такой важной для нас части, как обеспечение безопасности. И немаловажным является опытная поддержка при формировании собственного центра компетенций, на это нужно время. Этим же обусловлен выбор продуктов Informatica. Это зрелый продукт, с хорошей поддержкой и сильной интеграцией со стеком инструментария Data Governance, как говорится «из коробки». Что позволяет существенно снизить порог входа в большие данные. А так, конечно, NiFi является своего рода аналогом и позволяет решать весь спектр ETL/ELT задач, возможно где-то уступая, а где-то и выигрывая.

            • Дмитрий Капинос Андрей
              Рейтинг: 291
              МГУ, Экономический факультет
              Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
              07.01.2021 17:15

              Ага, теперь ситуация прояснилась. )

              Посмотрел на сайте Arenadata, NiFi входит в их продукт Arenadata Streaming как один из ключевых компонентов. А ADS тоже присутствует в вашем стеке решений. Получается, что для вас Informatica не станет критическим узким местом в случае санкционных действий или т.п. Тогда вопрос санкционного риска снимается.

              • Андрей Белевцев Дмитрий
                Рейтинг: 753
                Сбербанк, ПАО
                Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
                08.01.2021 00:59

                Дмитрий,
                продукт Arenadata Streaming позволяет закрыть только часть проблем, связанных с санкционными рисками. Связка Kafka закрывают только часть функционала, связанную с потоковой загрузкой данных. Нам еще предстоит выбрать имортонезависимый инструмент потоковой загрузки. Возможно для некоторых источников это будет инструмент событийной интеграции. Для баз данных Postgres - это перспективный подход.

                • Дмитрий Капинос Андрей
                  Рейтинг: 291
                  МГУ, Экономический факультет
                  Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
                  08.01.2021 13:13

                  Чувствую, что мне надо подтянуть осведомлëнность в этой области. )

        • Дмитрий Капинос Станислав
          Рейтинг: 291
          МГУ, Экономический факультет
          Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
          30.12.2020 17:51

          Станислав, я примерно так и понял суть Вашего высказывания, уточнил на всякий случай.
          Думаю, что причина обращения к российским вендорам СПО может быть в требовании о вхождении софта в Единый реестр российских программ. Ну и в передаче поддержки на аутсорсинг (компания большая и для неë подобные издержки не существенны, или это даже выгоднее, чем держать собственный штат для этих целей).

          Меня в этом ряду импортозамещения интригует проприетарная американская Informatica DEI/PC. Вы не знаете, существуют ли открытые аналоги для этого ПО? Я не достаточно погружен в тему, чтобы ответить на этот вопрос самостоятельно.

          • Станислав Тарасов Дмитрий
            Рейтинг: 145
            ГУП «Мосгортранс»
            Заместитель начальника отдела бортового оборудования
            08.01.2021 14:29

            Насколько я знаю особых аналогов нет. По сути альтерантива это и есть nifi или скрипты, но это нужны совсем другие скилы у команды и поддержка намного сложнее. Тут все как и в классических хранилищах, там альтернатива это простой SQL со всеми вытекающими....

            • Дмитрий Капинос Станислав
              Рейтинг: 291
              МГУ, Экономический факультет
              Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
              08.01.2021 22:22

              Станислав,

              в общем, я глянул обзоры на NiFi и вижу, что там DataFlow задаётся с помощью рисования блоксхем мышкой через веб-интерфейс. В лучших традициях Low-code. Казалось бы, куда проще-то.

              Теперь меня страшно мучает любопытство: как же тогда там всё ещё проще организовано в Informatica? Неужели специально обученная нейросеть угадывает желания аналитика/разработчика/опс-админа? )

              • Андрей Белевцев Дмитрий
                Рейтинг: 753
                Сбербанк, ПАО
                Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
                13.01.2021 00:05

                Дмитрий,

                С точки зрения организации разработки потоков данных в Informatica все аналогично - разработка ведется в визуальной среде. Есть преимущества за счет дополнительной функциональности, делающей разработку еще более удобной. Такой функциональностью являются, например, динамические маппинги и профилирование данных, в которых, к слову, есть и элементы ИИ.

                • Дмитрий Капинос Андрей
                  Рейтинг: 291
                  МГУ, Экономический факультет
                  Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
                  22.01.2021 18:07

                  Отличная тема для вебинара могла бы быть. ) Надо идею администраторам GlobalCIO подкинуть. Думаю многим было бы интересно. Особенно, если ещё комментарии у представителей Arenadata||Informatica попросить.

  • Андрей Белевцев
    Рейтинг: 753
    Сбербанк, ПАО
    Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
    09.12.2020 15:08

    Добрый день!
    Мы только вошли в активную фазу по наполнению данными, и в текущей конфигурации сервис рассчитан на хранение около 0,5 Пб разнородных данных (это структурированные данные в Arenadata DB и объем для хранения в Arenadata Hadoop). Мы не сталкивались с большими сложностями в сопровождении экосистемы Hadoop. Для решения некоторых задач успешно привлекали экспертизу и сопровождение вендора ПО Hadoop - Arenadata.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    14.12.2020 16:36

    Добрый день, спасибо за ответы!

  • Михаил Ежов
    Рейтинг: 52
    АО Газпромнефть-Альтернативное топливо
    Руководитель направления решений продвинутой аналитики
    19.12.2020 18:24

    Добрый день!

    Интересный проект, могли бы вы ответить на несколько вопросов:

    1. Касательно стека инструментов для поддержки процессов управления данными (Data Governance), включено ли в процесс разработки обязательное подключение метаданных реализованных кейсов для формирования истории происхождения данных (Data Lineage) ?

    2. Каким образом организован процесс описания бизнес терминов в Бизнес-глоссарии, связан ли он с процессом разработки или это отдельный процесс? Используются ли термины Бизнес-глоссария для привязки в качестве бизнес наименований или формирования семантического слоя для полей в витринах хранилища данных?

    3. Как планируется организовать процесс интеграции с источниками данных, планируется полностью загружать копии источников на сырой слой по принципу CDC, или планируется подключаться и загружать к себе данные только из таблиц и витрин необходимых только для конкретных кейсов?

    • Андрей Белевцев Михаил
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      22.12.2020 17:09

      Добрый день!

      1. Да, формирование истории происхождения данных является важным аспектом выстраиваемого процесса управления данными в целом.

      2. Разработка и внедрение процессов управления данными, одним из которых является процесс описания бизнес-терминов, производится в рамках смежного проекта. Это новые процессы, которые встраиваются в уже существующие процессы проектирования, разработки и внедрения. И затрагивают все этапы преобразования данных от маппинга терминов на системы-источники, создания ODS и DDS в общекорпоративной модели и до конечных витрин.

      3. Подход к интеграции с источниками у нас достаточно гибкий и выбор конкретного способа больше зависит от самого источника, его специфики. Где-то выбирается загрузка данных непосредственно в физической модели БД источника, без каких-либо трансформаций. Для других источников выбирается интеграция через создание интерфейсной витрины, например, если система является мастер-системой по расчету каких-либо показателей и они отсутствуют в БД, или есть какие-нибудь особенности хранения данных внутри БД.

  • Михаил Ежов
    Рейтинг: 52
    АО Газпромнефть-Альтернативное топливо
    Руководитель направления решений продвинутой аналитики
    19.12.2020 18:26

    Удален

  • Михаил Ежов
    Рейтинг: 52
    АО Газпромнефть-Альтернативное топливо
    Руководитель направления решений продвинутой аналитики
    19.12.2020 18:26

    Удален

  • Алексей Ильин
    Рейтинг: 7
    АО Газпромбанк
    Руководитель продукта
    21.12.2020 14:04

    Добрый день!
    Расскажите подробнее по следующим моментам, пожалуйста:
    1. В какой момент внедрения системы керберизировали хадуп?
    2. Для разграничения доступа используются только механизмы hadoop или какие-то сторонние решения?
    3. Вы написали, что были доработки на стороне источников. Что за доработки и зачем они?

    • Андрей Белевцев Алексей
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      23.12.2020 17:47

      Добрый день!

      1. Hadoop керберизировали сразу при развертывании. Это было обязательным требованием со стороны службы информационной безопасности.

      2. Для разграничения доступа к данным хранящимся внутри Hadoop используются только внутренние механизмы из дистрибутива, сторонних решений нет.

      3. Доработки на источниках напрямую зависят от выбранного для него способа интеграции. При выборе способа интеграции учитывается, как технологические особенности самого источника, тип БД, формат хранения данных в БД, стратегия обновления данных внутри БД, так и финансовые и организационные аспекты: целевой статус источника, сложность его доработки, наличие команд сопровождения и др. Например, для пакетной загрузки такой доработкой может служить создание интерфейсной витрины в БД источника, для потоковой интеграции это или установка CDC, или создание адаптера прикладной репликации.

  • Сергей Чернов
    Рейтинг: 13
    ПАО Сбербанк
    Исполнительный директор
    24.12.2020 16:28

    Добрый день!

    Согласно представленному описанию проекта его цель обозначена как сокращения времени вывода продукта (Time to market) за счет акселерации инициатив по анализу данных, быстрого выделения ресурсов управления данными, переиспользования данных и доступных инструментов ETL, а также сокращения стоимости инициатив за счет переиспользования данных, эффективного использования инфраструктуры и ПО, и «единого окна» по работам.



    Были ли проведены предварительные измерения коэффициента, который мог бы проиллюстрировать достижение поставленных целей?

    Насколько сократился Time2Market для продуктов на базе технологий больших данных? Какой вклад в это увеличение внесло переиспользование данных, какой вклад внесло эффективное использование инфраструктуры и ПО?



    Бывает, что уменьшение времени вывода в промышленную эксплуатацию приводит к повышению стоимости внедрения инициатив, каким образом удалось найти оптимальное сочетание этих зачастую противоречивых требований?



    С уважением, Сергей Чернов.

    • Андрей Белевцев Сергей
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      30.12.2020 12:33

      Сергей, добрый день!

      Да, основными показателями достижения целей проекта были скорость подключения нового источника и расширение ассортимента данных в количестве интегрированных систем-источников. На момент старта проекта измеренный срок поставки данных из систем-источников составлял от полугода до 9 месяцев. Сейчас не больше месяца.

      Про Time2Market. Не секрет, что основной проблемой реализации продуктов на базе технологий больших данных является поиск и поставка необходимых данных. Поэтому основной вклад в сокращение T2M несет конечно переиспользование данных. Если раньше интеграция и поставка данных из необходимых систем-источников занимала от полугода до 9 месяцев, то сейчас подключение нового источника занимает не больше месяца, а реализация поставки по уже интегрированным источникам несколько дней. Вклад переиспользования инфраструктуры и ПО в том, что продукт просто не занимается их закупкой и внедрением.

      По третьему вопросу: Это актуально не только для data-продуктов. Для решения задачи баланса стоимости и t2m в компании разрабатывается целый комплекс мер. В основном они направлены на быстрое прототипирование и выпуск MVP продукта для проверки его ценности и экономической эффективности. И со своей стороны, для поддержки этого подхода, мы развиваем сервисы самообслуживания работы с данными.

  • Сергей Федечкин
    Рейтинг: 493
    ВТБ, ПАО
    Директор по управлению проектами
    28.12.2020 15:24

    Андрей, Расскажите, пожалуйста, как организован доступ к данным бизнес-пользователями? Какие системы инструменты Business Intelligence задействованы и какой основной сценарий использования пользователями и на какое количество пользователей спроектирована система?

    • Андрей Белевцев Сергей
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      31.12.2020 16:01

      Сергей, добрый день!

      Доступ к данным предоставляется на основе настроенной ролевой модели с использованием внутренних механизмов наших инструментов. В рамках реализации стратегии управления данными отдельно разрабатывается ролевая модель, основанная на принципах разделения данных на домены, что должно значительно облегчить и ускорить процесс доступа к данным.

      В компании используются BI инструменты Qlik. Так же сейчас рассматриваем импортонезависимые аналоги. В качестве сценария использования преобладает классический сценарий, решающий задачи подготовки данных в витринах и их дальнейшее использование. Ориентиром была тысяча различных пользователей сервиса, пользователей самой BI отчетности конечно больше.

      • Станислав Тарасов Андрей
        Рейтинг: 145
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        08.01.2021 14:34

        Андрей, добрый день. А View или Sense используете? Не смотрели более простые для пользователя аналоги типа Табло. Почему выбор именно в сторону клика был сделан?

        • Димитрий Дождев Станислав
          Рейтинг: 82
          ПАО Газпром нефть
          руководитель программы «Платформа управления данными»
          08.01.2021 21:43

          Я хотел бы помочь с ответом Андрею. Тут есть несколько причин На данный момент в компании продукты семейств Qlik являются стандартом и вносить в ландшафт еще один импотрозависимый продукт будет как минимум странным решением. Сейчас производится анализ возможности внедрения отечественного инструментария

          • Дмитрий Капинос Димитрий
            Рейтинг: 291
            МГУ, Экономический факультет
            Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
            08.01.2021 22:32

            Дмитрий, скажите, а какие отечественные инструменты BI могли бы рассматриваться в качестве кандидатов на замену? Хотя бы чисто гипотетически.

            Или может быть если не отечественные, то например open source решения?

            • Андрей Белевцев Дмитрий
              Рейтинг: 753
              Сбербанк, ПАО
              Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
              13.01.2021 00:04

              Дмитрий,

              Из Open Source волне можно использовать Graphana и Kibana. А вот отечественный инструментарий очень развился за последние годы, например Simpl, Форсайт, Полиматика, Визиолоджи, Люксмс. Так что при необходимости - выбрать есть из чего :)

              • Дмитрий Капинос Андрей
                Рейтинг: 291
                МГУ, Экономический факультет
                Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
                22.01.2021 17:59

                Спасибо!

                «Так что при необходимости - выбрать есть из чего»

                Вот это радует. )

  • Сергей Федечкин
    Рейтинг: 493
    ВТБ, ПАО
    Директор по управлению проектами
    28.12.2020 15:25

    Андрей, добрый день. Какие версии программных продуктов Arenadata DB, Arenadata Hadoop, Arenadata Streaming, Informatica DEI/PC используете? Какова стратегия компании по использованию самых новых версий программных продуктов и на сколько быстро новые версии программных продуктов устанавливаются на промышленный контур?

    • Андрей Белевцев Сергей
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      31.12.2020 16:01

      Сейчас используются достаточно старые версии продуктов, которые были стабильными на момент разворачивания сервиса, что было закреплено в проектной документации. В следующем году планируем обновление почти по всем продуктам. Текущие версии: ADB 6.11, ADH 1.6, Informatica DEI 10.4, PC 10.2.



      Если говорить о значительных обновлениях продуктов, то новые версии внедряются только после апробации на соответствие корпоративным и проектным требованиям ИТ и ИБ. При желании эту процедуру можно пройти достаточно быстро, для этого есть все необходимые среды и инструменты. Для автоматизации этого процесса в компании разрабатывается отдельный сервис DevSecOps.

  • Сергей Федечкин
    Рейтинг: 493
    ВТБ, ПАО
    Директор по управлению проектами
    28.12.2020 15:25

    Андрей, подскажите, пожалуйста, как распределены задачи хранилища между кластерами Arenadata DB и Arenadata Hadoop? На какой из кластеров в первую очередь ложится основная нагрузка по преобразованиям данных и представлению данных конечным пользователям?

    • Андрей Белевцев Сергей
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      31.12.2020 16:03

      В настоящей момент нагрузка больше идет на ADB. Но в ближайшем будущем планируем вынести весь препроцессинг данных на Hadoop, а ADB использовать для хранения уже подготовленных данных и предоставления конечным пользователям.

      • Станислав Тарасов Андрей
        Рейтинг: 145
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        08.01.2021 14:36

        Андрей, А как планируете реализовать управление жизненным циклом данных? Есть какие-то специальные инструменты для этого или просто скриптами? Или пока такой задачи нет и просто данные копятся?

        • Андрей Белевцев Станислав
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          08.01.2021 23:38

          Станислав,

          Отдельный специализированный инструмент мы на данном этапе развития не внедряли. Это объясняется невысокой актуальностью данной задачи на текущем уровне развития. Сейчас мы используем автоматизацию при помощи самостоятельно разработанных скриптов.

  • Дмитрий Капинос
    Рейтинг: 291
    МГУ, Экономический факультет
    Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
    29.12.2020 00:31

    Андрей, здравствуйте!

    Оч. интересный проект. У нас тут в связи с санкциями и недавним баном Бауманки со стороны Майкрософт ведутся горячие споры: СПО или не СПО. А тут Газпромнефть и Hadoop — это аргумент! )

    Было бы вообще здорово, если бы подобные кейсы публиковались в виде журнальных статей, чтобы на них можно было должным образом ссылаться.

    Вопрос про open source. В описании как одна из особенностей данного сервиса указано «архитектура с использованием импортонезависимых компонентов».

    В составе пречисленного ПО, действительно, большинство решений от российских интеграторов на базе СПО решений: Arenadata DB, Arenadata Hadoop, Arenadata Streaming, PostgresPro.

    Но вот Informatica DEI/PC, вроде, американская фирма и чисто проприетарное решение. Почему остановились на нём? Нет достойных аналогов?

    С уважением,
    Дмитрий Капинос

    • Андрей Белевцев Дмитрий
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      31.12.2020 16:05

      Дмитрий, добрый день!



      Выбор инструментария проводился по методике, принятой в компании с учетов многих критериев, функциональных и нефункциональных требований. По результатам выбора продукты Informatica показали лучший результат.



      Про кросс-функциональность: Пользователями нашего сервиса могут быть специалисты всех подразделений и ДО компании – дата инженеры, аналитики данных, DS, аналитики BI и тп. Необходимые компетенции все же сильно зависят от роли. Для приобретения необходимых навыков есть обучающие курсы в корпоративном университете. Мы постоянно расширяем список таких курсов.



      При реализации проекта использовали стандарт компании по управлению ИТ-проектами на основе PMBok. До этапа разработки проект использовал Вотерфолл, Scrum на этапе Разработки и внедрения, Canban на этапе ОПЭ.



      А использование гибких методологий и применение продуктового подхода уже стало нормой для нашей компании. В рамках цифровой трансформации компании мы стали участниками изменений методик и подходов к реализации таких сложных проектов как наш. Зрелость продуктовой команды позволила реализовать сложные задачи, а в конфликтах всегда можно найти решение.



      На нашем проекте работает одна команда внутренних исполнителей по разработке и настройке ИТ-решения, а также мы привлекали в помощь подрядчиков, например, для разработки мониторов качества поставки данных, механизмов разделения доступа к данным, для обследования ИСПД компании в целях будущей реализации СЗПДн на наш сервис.

      • Дмитрий Капинос Андрей
        Рейтинг: 291
        МГУ, Экономический факультет
        Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
        06.01.2021 16:15

        Андрей, спасибо за развëрнутый ответ!

        Судя по рассказанному здесь (прочитал все комментарии, а также посмотрел другие проекты от вашей компании) ИТ-служба в Газпром нефть организована на оч. высоком уровне. Снимаю шляпу!

        • Андрей Белевцев Дмитрий
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          07.01.2021 14:28

          Дмитрий, спасибо! Это заслуга большой команды!

  • Дмитрий Капинос
    Рейтинг: 291
    МГУ, Экономический факультет
    Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
    29.12.2020 00:37

    Ещё вопросы:
    упомянута «возможность формирования кросс-функциональной отчетности на уровне всех подразделений ПАО «Газпром нефть» и ее дочерних предприятий».

    А вообще, кто пользователи сервиса?

    Какие требования к ним предъявляются (что они должны знать/уметь, какие компетенции нужны)?

  • Дмитрий Капинос
    Рейтинг: 291
    МГУ, Экономический факультет
    Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
    29.12.2020 00:44

    Ну и ещё интересно вот это:
    «Проект реализуется с 2018 года в соответствии со стандартами управления ИТ-проектами с использованием гибких методологий».

    Scrum или другая методология?

    Использование гибких методологий — норма для компании? Или это уникальная особенность именно этого проекта? Если последнее, интересно, не было ли конфликта культур.

    Была одна команда или несколько команд? Если была большая команда, интересно, как обеспечили управляемость.

    • Андрей Белевцев Дмитрий
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      06.01.2021 00:15

      Дмитрий,

      дополню тут. Использование гибкого подхода росло по ходу реализации проекта совместно с ростом зрелости команды. Первым шагом при переходе Agile было внедрение Scrum. Нам очень помогло то, что процессы в Scrum хорошо определены, что позволяло решать вопросы формирования команды и поставки ценности с самых первых шагов. Далее пришел черед Канбан, так как появился понятный процесс поставки ценности. Внедрение гибких методик совпадает с текущем трендом компании, чтобы проекты осуществляли поставку ценности с самых ранних стадий проекта.



      Команда проекта росла постепенно. С проблемой размера мы столкнулись в самом конце, когда командные встречи стали затягиваться. Решение мы видим, что следующий шаг будет разделение на 2 команды, где одна развивает функционал решения, а вторая обеспечивает функционирование.

      • Дмитрий Капинос Андрей
        Рейтинг: 291
        МГУ, Экономический факультет
        Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
        07.01.2021 16:50

        Андрей,

        я поэтому и спросил про метод и размер команды. Создатели Скрам утверждают, что оптимальный размер команды разработки 3-9 чел. (это есть и в Скрам-гайде, и Сазерленд отдельно высказывался). Если больше — начинаются проблемы с координацией. Действительно, если команда большая, то на ежедневных стендапах сложно уложиться в 15 мин., то же самое с планированием спринта, когда при обсуждении размера задач всем надо высказаться. Как Вы и говорите.

        Имейте в виду, что то, что вы предполагаете сделать, разбив большую команду на подкоманды по функциональным специализациям прямо запрещено стандартом Скрам (см. Гайд, Команда разработки), поскольку это тоже ведёт к проблемам (шаг назад к должностному разделению). Стандарт, конечно, можно погнуть. Но всё-таки.

        Однако не запрещено разбивать продукт на подпродукты, над которыми могут работать отдельные команды с их взаимодействием (оркестровкой) между собой через владельцев продукта и скрам-мастеров. Есть соотв. надстройки над Скрамом. Возможно подобные расширенные фреймворки, это то, что лучше всего подойдёт в вашем случае.

        Ну или, возможно, у вас получится собственный фреймворк/метод для больших команд. Прямо из практики. Российский вклад в методологию. Почему нет? )

        • Андрей Белевцев Дмитрий
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          07.01.2021 23:23

          Все правильно, именно с этими проблемами мы и столкнулись. Работа с двумя продуктами у нас впереди. На этапе завершения разработки это было сложно. На данный момент мы решили с переходом к Канбан, это стало возможно благодаря тому, что к концу проекта появилась отстроенная цепочка поставки ценности. Так же уже отработаны взаимодействия между разработчиками. Сейчас же впереди работа над разными продуктами: один - собственно сервис, второй - создание новых продуктов на его основе. Так же мы уже посмотрели на модель LESS и, думаю, ее в каком-то виде будем внедрять.

          • Дмитрий Капинос Андрей
            Рейтинг: 291
            МГУ, Экономический факультет
            Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
            08.01.2021 13:10

            Да, именно LeSS и SAFe я и имел в виду.

            Вообще, все эти методы и фреймворки (Канбан, Скрам и т.д.) прямо или косвенно происходят от TPS Тойоты или Lean Production. Это не из области ПО, а из операционного менеджмента вообще. Подходящие принципы оттуда (не все и в разных сочетаниях) были заимствованы и адаптированы. Так что, при необходимости (если готовые фреймворки в чëм-то не подойдут) можно обратиться и прямо "к сорцу". Тойота большая компания с проектами огромного масштаба.

            • Андрей Белевцев Дмитрий
              Рейтинг: 753
              Сбербанк, ПАО
              Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
              08.01.2021 16:31

              Дмитрий,

              Вообще весь Agile является подмножеством Бережливого Производства. Внедрение TPS весьма затруднительно в отдельно взятом проекте, все же это вопрос корпоративной культуры и требует гораздо большего времени, поэтому сейчас мы движемся в сторону фреймворков масштабирующих Scrum и/или Канбан. Но согласен, этот подход интересен.

              • Дмитрий Капинос Андрей
                Рейтинг: 291
                МГУ, Экономический факультет
                Предприниматель, консультант в области управления и ИТ, к.э.н., преподаватель МГУ
                08.01.2021 22:29

                Полностью согласен на счёт сложности адаптации TPS и тем более на отдельном проекте!

  • Иван Новосёлов
    Рейтинг: 25
    МФТИ
    Старший исследователь
    30.12.2020 17:43

    Андрей, здравствуйте.

    Сейчас очень многие говорят о тренде на децентрализации и так называемом подходе datamesh. Отмечают ответственность каждого подразделения и снижение времени вывода продуктов на рынок. Вы рассматривали данный подход? Почему выбрали подход к централизации?

    Заранее спасибо за ответ.

    • Андрей Белевцев Иван
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      31.12.2020 21:10

      Иван, мы постоянно следим за трендами и оцениваем их применимость. Нельзя однозначно сказать, что мы идем на централизацию, такой задачи нет. Более того, есть случаи, когда построение централизованного хранилища не оправдано, например интеграция SAP. Скорее, будет смешанный подход, с элементами datamesh в том числе.

  • Илья Титов
    Рейтинг: 70
    КБ Модульбанк, АО
    Управляющий директор
    30.12.2020 17:48

    Добрый день.

    У вас в проекте описана часть, которая касается сбора данных и что есть различные потребители, а был ли реализован механизм по self-service, т.е. подписки на данные пользователями? Интересует не просто возможность написать скрипт и забрать себе нужную порцию данных, а удобный инструмент\портал для широкого круга пользователей. Если такой механизм реализован, то не могли бы рассказать каким образом?

    • Андрей Белевцев Илья
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      31.12.2020 21:11

      Илья, это очень актуальный для нас вопрос. Но к сожалению, в текущей версии нашего сервиса такого механизма нет. Мы планируем его разработку на следующем этапе развития. Сможем рассказать про него в следующем году.

  • 02.01.2021 19:05

    Мировой тренд в индустрии, это использование облачных и гибридных решений. Насколько интересна концепция гибридной облачной архитектуры для ГПН и планируется ли расширение инфраструктуры с использованием мощностей локальных облачных провайдеров?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      06.01.2021 00:04

      Дмитрий,



      Тема, конечно же интересна, мы работаем в этом направлении. Но как и любая крупная компания, «Газпром нефть» руководствуется не только трендами, но требованиями информационной безопасности. На данный момент совместно с партнерами мы проводим тесты и апробации, чтобы найти решение, отвечающее как нашим вызовам, так и требованиям безопасности.
      «Газпром нефть» рассматривает возможность применения гибридного облака для развития своего вычислительного кластера и разработок в области искусственного интеллекта, которые используются для поиска новых запасов нефти и дистанционного управления технологическими операциями по ее добыче.

  • Юлия Панова
    Рейтинг: 5
    ПАО Сбербанк
    Руководитель направления
    03.01.2021 12:50

    При построении решений на основе данных, важным является поставка именно качественных данных. Какие используются инструменты мониторинга и контроля качества данных? Как организован процесс работы над качеством данных?


    Каким образом обеспечивается доступность элементов платформы? Какие инструменты мониторинга ресурсов и/или балансировки нагрузки в настоящий момент используются в вашем решении?

    • Андрей Белевцев Юлия
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      06.01.2021 00:07

      Юлия, добрый день!

      Очень правильно сказано. Мы очень большое внимание уделяем вопросу качества данных. В качестве инструмента контроля качества данных у нас используется Informatica DQ, а так же в разработке решение по контролю качества потоковых данных на базе решения Алмаз. В рамках программы по управлению данными разрабатывается политика и необходимая нормативно-справочная документация, в которой процессы управления качеством данных вынесены в отдельную группу.

      Обеспечение высокой доступности элементов платформы в основном достигается за счет избыточности инфраструктуры и данных внутри распределенных систем.

      Мониторинг можно разделить на несколько уровней: от инфраструктурного до прикладного. И для каждого используется свой инструментарий. Мониторинг и управление распределенными системами Arenadata выполняется с помощью входящего в дистрибутив кластер менеджера.


      • Станислав Тарасов Андрей
        Рейтинг: 145
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        08.01.2021 14:39

        Андрей,

        а как встраиваются процессы по обеспечению качества данных? Насколько я понимаю Informatica DQ работает как ETL инструмент, т.е. проверка происходит при загрузке. А как быть с проверками на источниках или кросс-проверками по витринам? Расскажите пожалуйста, как это реализовано.

        • Андрей Белевцев Станислав
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          13.01.2021 00:06

          Станислав, добрый день!

          IDQ - это просто модуль над IPC, и он позволяет использовать всю гибкость ETL функциональности для реализации проверок. Проверка при загрузке является лишь одной из таких моделей его использования, и при необходимости легко можно реализовать проверки как на реплике данных источника, так и над одной или несколькими витринами.

  • Роман Илюхин
    Рейтинг: 5
    ПАО МТС
    менеджер
    03.01.2021 14:39

    В рамках процесса интеграции с источниками данных и представлении данные на платформе на слое ODS, какие возможности и преимущества для эффективного использования последующими процессами загрузки в хранилища данных и создания витрин для анализа могут быть предложены?

    • Андрей Белевцев Роман
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      05.01.2021 23:40

      Роман,

      Размещение данных в MPP СУБД Arenadata DB дает возможность параллельной обработки при чтении и преобразовании данных. Эффективные алгоритмы компрессии Arenadata DB дают возможность сократить время чтения данных. Программное обеспечение, предоставляемое платформой, для создания области ODS позволяет добавлять секционирование данных для увеличения эффективности чтения из слоя ODS. Дополнительно, к "сырым" данным для источников данных может быть создана область "История", где данные могут быть представлены в виде версий, с возможностью получения информации об изменениях.

  • Аллан Пиренов
    Рейтинг: 190
    AllanKo
    Директор по ИТ
    04.01.2021 12:45

    Добрый день, cейчас много споров о потенциале виртуализации данных вместо классических хранилищ и озер данных. Если посмотреть со стороны одни только плюсы: гибкая модель, всегда свежие данные в реальном времени. Рассматривали ли вы данный стек технологий? Если рассматривали, то почему решили не использовать?

    • Андрей Белевцев Аллан
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      05.01.2021 23:31

      Аллан, добрый день!
      Потенциал виртуализации данных, конечно, есть, и первой областью, где планируем ее использовать – это виртуализация данных систем на платформе SAP. Успех видим в правильном использовании различных подходов к обработке и хранению данных.

  • Аллан Пиренов
    Рейтинг: 190
    AllanKo
    Директор по ИТ
    04.01.2021 12:45

    Добрый день, cейчас много споров о потенциале виртуализации данных вместо классических хранилищ и озер данных. Если посмотреть со стороны одни только плюсы: гибкая модель, всегда свежие данные в реальном времени. Рассматривали ли вы данный стек технологий? Если рассматривали, то почему решили не использовать?

  • Николай Пузырев
    Рейтинг: 5
    ПАО ПАО ВТБ
    Директор
    04.01.2021 19:19

    Доброго дня, реализация подобного решения вместо внедрения готового коробочного продукта требует формирование сильной технической команды. Поделитесь опытом, как в такой крупной организации удалось построить сильную команду среди специалистов, работающих с данными? Проводятся ли мероприятия внутри компании (митапы, неформальные встречи, бизнес завтраки с CDO)?

    • Андрей Белевцев Николай
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      06.01.2021 01:05

      Николай, вы правы!



      Формирование подобной команды - трудный и кропотливый процесс, который занимает длительное время. Первым шагом было построение ядра команды, которое составили лучшие специалисты компании и менеджеры и эксперты из компаний - лидеров индустрии и ИТ. Вокруг этого ядра и строился коллектив в дальнейшем.

      Данный подход, наряду с амбициозными задачами, позволяет привлекать новых специалистов. Более того - этот процесс все еще продолжается, мы будем рады видеть в нашей команде новых супергероев:)

      Один из принципов, лежащих в основе стратегии цифровой трансформации компании, – управление на основе данных. Ведется большая системная работа, в т.ч. по работе с данными: обеспечение их доступности на всех организационных уровнях компании и переиспользования для разных процессов (демократизация данных). Частью этой работы и является наш сервис интеграции и анализа данных.

      Для обмена опытом, новыми практиками, расширения кругозора, вовлечения сотрудников компании в процесс цифровой трансформации в компании регулярно проводятся митапы и онлайн вебинары.

      • Станислав Тарасов Андрей
        Рейтинг: 145
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        08.01.2021 14:43

        А используется ли аутсорсинг ресурсов? Если используется, то подскажите в какой пропорции и какие роли, а также почему именно эти роли? Просто мы видим вечные "качели" между инсорсингом и аутсорсинг и видится, что правда где-то по середине, вот и интересно к чему вы пришли.

        • Андрей Белевцев Станислав
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          09.01.2021 00:06

          Решение по данному вопросу каждый раз принимается в зависимости от обстоятельств. При существующей модели информационной безопасности в «Газпром нефти» инсорс сильно предпочтителен, ниже накладные расходы на ввод в эксплуатацию. Сейчас мы опираемся на собственные ресурсы, выстроенное взаимодействие с вендорами, приглашаем подрядчиков, когда это допустимо. Уже есть прецеденты, когда подрядчики используют сервис в реализации проектов для нашей компании.

  • Геннадий Чернышев
    Рейтинг: 20
    Lamoda
    Консультант ERP
    06.01.2021 02:23

    Добрый день!

    Внедрение подобных продуктов является частью большой трансформационной деятельности. Насколько большая команда, занимающаяся вопросами цифровой трансформации бизнеса? Проходят ли специалисты, занимающиеся вопросами цифровой трансформацией, соответствующее обучение и возможно сертификацию?

    • Андрей Белевцев Геннадий
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 14:25

      Геннадий, добрый день!

      Да, у нас большая команда! Непосредственно в подразделении, которое отвечает за цифровую трансформацию компании, работает более 1000 человек. Но в каждом направлении бизнеса мы стремимся развивать цифровые компетенции, создавать кросс-функциональные команды разработчиков, инженеров, аналитиков.

      Конечно же, это требует определенных усилий по созданию комфортной среды для развития. Так, на базе Корпоративного университета «Газпром нефти» мы создали целый факультет Цифровой трансформации.
      Реализованы онлайн «Школа скрам-мастеров» и программа по развитию продуктовых компетенций для владельцев и менеджеров продуктов. Разработана первая программа по развитию навыков цифровой трансформации «Бизнес-мышление в цифровой действительности» совместно экспертами «Газпром нефти», Яндекса с НИУ ВШЭ в Санкт-Петербурге. Ее выпускники получают дипломы о повышении квалификации НИУ ВШЭ и сертификаты Корпоративного университета «Газпром нефти». Как писал ранее, в компании регулярно проводятся митапы, вебинары для обмена опытом, расширения знаний и повышения цифровой зрелости команд.

      • Геннадий Чернышев Андрей
        Рейтинг: 20
        Lamoda
        Консультант ERP
        07.01.2021 22:51

        Андрей, большое спасибо за развернутый ответ. Подскажите пожалуйста, а каким образом вам удается привлекать и что самое главное удерживать такое количество квалифицированных специалистов, ведь «Газпром нефть» не самый известный и привлекательный работодатель на рынек? Разработчик или ДевОпс скорее пойдет работать в профильную ИТ компанию.

        • Андрей Белевцев Геннадий
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          08.01.2021 20:13

          Геннадий,

          Эта проблема существует только в головах :) Да, нам приходится конкурировать за компетентные кадры с ИТ-гигантами, но наши задачи зачастую, гораздо интереснее и сложнее, чем в привычных, для ИТ, компаниях. Мы даём возможность развиваться на новых вызовах и возможностях.
          Помимо этого мы планомерно работаем над развитием нашего бренда на ИТ-рынке. Наша компания дает возможности работать над уникальными проектами, с огромным объемом уникальных данных, решать задачи, которые ранее не решались в отрасли, в стране, и не побоюсь сказать - в мире. И мы, конечно, большое внимание уделяем созданию комфортной среды в офисе, чтобы ИТ-специалисты ощущали себя в привычном окружении, работая в нефтяной компании.

  • Дмитрий Комаров
    Рейтинг: 6
    ООО НМК
    Директор по развитию продуктов
    06.01.2021 19:20

    Добрый день, Андрей!

    Подскажите, каким образом организована версионирование источников данных. Востребовано ли это в компании?

    Реализованы ли в платформе ландшафты для различных типов данных, поделены ли данные на типы, например, такие как коммерческая тайна, гостайна?
    Возможно есть разделение на разработку и продуктив, если да, то как обеспечена анонимизация данных при переходе между ландшафтами?

    • Андрей Белевцев Дмитрий
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 14:35

      Дмитрий,

      Если речь про версионирование данных источников, загружаемых в первичные данные хранилища, то да, это востребовано некоторыми потребителями. Организация же сильно зависит от источника и способа интеграции. Если источник может поставлять инкремент данных, то мы можем сохранять данные с поддержкой историчности. Но даже при невозможности определения инкремента на стороне источника, мы можем взять эту функцию на себя и вычленять инкремент для поддержки историчности на своей стороне.

      На текущий момент реализовано разделение только на ландшафты разработки, тестирования и продуктив с учетом специфики компании, т.е. для тестирования на продуктивных данных используется так называемая предпродуктивная среда. Чувствительные данные имеют специализированные теги, которые используются и при разграничении доступа и при анонимизации. Для анонимизации и искажения данных между ландшафтами разработки и (пред) продуктива разрабатываем собственное решение на основе PXF.

  • Максим Феопентов
    Рейтинг: 92
    Евраз
    Директор по развитию цифровых технологий
    06.01.2021 19:51

    Добрый день!

    Судя по описанию проекта и инструментам, использованным при его реализации, ваше решение ориентировано на загрузку данных по регламенту, что ведет к устареванию данных, и решения строятся не на основе актуальных данных. Это может
    ограничивать применимость платформы для использования в некоторых производственных процессах. Есть ли у вас опыт и/или планы по работе с событийной информацией?

    • Андрей Белевцев Максим
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 14:34

      Максим,
      Мы не хотели, чтобы сложилось такое впечатление. У нас есть весь спектр решений для реализации и пакетной, и событийной интеграции. У нас уже есть реализованные интеграции с обновлением данных в режиме близком к реальному времени. Преобладание же пакетной загрузки, как правило, связано с необходимостью доработки систем-источников для поддержки событийной.

      В целевой архитектуре мы отдаем приоритет именно событийной интеграции. А так же нас ждет тесная интеграция с платформой IIoT.

      • Максим Феопентов Андрей
        Рейтинг: 92
        Евраз
        Директор по развитию цифровых технологий
        08.01.2021 20:42

        Андрей, спасибо за ответ.
        Тогда можете рассказать какие типы источников вы уже интегрировали в данной платформе? Если не производственная информация, то подразумеваются корпоративные системы? С какими источниками были наибольшие трудности? Как я понял, для хранения и обработки производственных real-time данных планируется отдельная платформа IIoT.

        • Андрей Белевцев Максим
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          08.01.2021 21:56

          Да, сервис IoT - это смежный проект, который реализуется в той же программе, что и наш сервис. Интеграция с ним в ближайших планах, пока степень его зрелости недостаточна.

          Главные источники — это реляционные базы данных (Postgres, Oracle), однако существенную часть составляют и 1C-источники. Вот на них приходится тратить наибольшие усилия, так как забор полной реплики лишен какого-либо смысла, поэтому требуется доработка источника, а ресурсы часто недоступны для подобной работы.

          • Максим Феопентов Андрей
            Рейтинг: 92
            Евраз
            Директор по развитию цифровых технологий
            08.01.2021 22:51

            Андрей, обрабатываете ли вы неструктурированные источники данных, например, видео-потоки с производственных объектов? Какую архитектуру решения и технологии используете для обработки, применяете ли облачные платформы для хранения такого рода информации?

            • Андрей Белевцев Максим
              Рейтинг: 753
              Сбербанк, ПАО
              Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
              08.01.2021 23:30

              Максим,



              Для работы с неструктурированными данными в нашем технологическими стеке предназначены HBase и Hadoop, однако их использование для длительного хранения на наш взгляд не всегда оправдано, это особенно относится к данным видеоаналитики. Гораздо более целесообразно осуществлять хранение в более дешевом, но медленном S3 хранилище, что и делается в нашей компании, а обработку осуществлять в быстром хранилище на основе HDFS (Hadoop).

  • Сергей Артамонов
    Рейтинг: 5
    ООО Т2 Мобайл
    Руководитель департамента
    07.01.2021 17:12

    Андрей, здравствуйте!

    Использованный в Вашем проекте технологический стек позволяет хранить и обрабатывать практически любые типы данных, однако не решает задач связывания сущностей, которые решают графовые базы данных. Есть ли у вас планы по их внедрению, так же хотелось бы узнать использованы ли вами какие-либо технологии доступа к данным кроме витрин?

    • Андрей Белевцев Сергей
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 21:07

      Сергей, добрый вечер!

      Да, такие планы действительно есть. Потребность в технологиях хранения графовых данных мы предвидели, но ждали появления конкретного заказчика, с реальной бизнес-потребностью. Технология одна, но у каждого решения есть свои сильные и слабые стороны. Будем выбирать. Вопрос по технологиям доступа вообще требует отдельного обсуждения. Под витринами, мы, в первую очередь, понимаем набор подготовленных данных для потребителя. И тут как у потребителя могут быть свои специфичные требования, так и у одной и той же витрины может быть несколько технологий доступа для разных потребителей. Так, помимо уже стандартных протоколов доступа, последней технологией, вызвавшей заинтересованность наших потребителей, была GraphQL.

  • Анна Нестеренко
    Рейтинг: 5
    ПАО МФ
    Бизнес партнёр
    07.01.2021 18:02

    Добрый день!
    Существенную часть технологического стека из вашего проекта составляют open source инструменты такие как green plum, Hadoop, Kafka, nifi, однако по какой-то причине были выбраны реализации вендора Ареалата. Чем обусловлено подобное решение?

    • Андрей Белевцев Анна
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 21:08

      Анна, здравствуйте!

      Это обусловлено, в первую очередь, сильной доработкой продуктов вендором с точки зрения безопасности и выпуском дополнительной функциональности, востребованной нами. Ну и конечно важно иметь квалифицированную поддержку со стороны вендора во время формирования собственного центра компетенций.

  • Илья Титов
    Рейтинг: 70
    КБ Модульбанк, АО
    Управляющий директор
    07.01.2021 20:30

    Добрый вечер, Андрей! Проект действительно довольно уникальный на рынке, очень интересно понять подробности! Подскажите, пожалуйста, для каких будущих проектов будут использованы данные из проекта? Если это предполагается, конечно.

    • Андрей Белевцев Илья
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 22:32

      Илья, добрый вечер!

      Собственно возможность переиспользования данных и предполагает наибольший эффект от внедрения, позволяет сократить как издержки, так и срок реализации. На этапе реализации проекта порядка 15-20% данных переиспользовалась в проектах заказчиках.

  • Илья Титов
    Рейтинг: 70
    КБ Модульбанк, АО
    Управляющий директор
    07.01.2021 20:31

    Ещё один вопрос. Хотелось бы узнать, удалось ли реализовать демократизацию данных, стали ли данные более доступными благодаря этому проекту? Насколько изменились цели и задачи проекта за время его реализации.

    • Андрей Белевцев Илья
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 22:34

      Если отвечать в двух словах, то да, проект позволил сделать первые шаги в сторону демократизации. Во-первых, появился собственный центр компетенции, разрабатывающий интеграции. Во-вторых, проекты потребители теперь должны разрабатывать типовую интеграцию, вместо решения специфических задач, часто повторяя разработку соседней команды. В третьих, некоторые проекты получили доступ к данным из таких источников, к которым при старом подходе доступ был бы невозможен.
      Цели изменились радикально. Если в начале это был проект внедрения инфраструктуры, то в конце проекта мы строили сервис, удовлетворяющий потребности заказчика.

  • Илья Титов
    Рейтинг: 70
    КБ Модульбанк, АО
    Управляющий директор
    07.01.2021 20:52

    Андрей, и ещё один вопрос к Вам по этому проекту. Каким образом вы организовали работу различных подразделений, чтобы они делились своими данными? Это момент во многих компаниях вызывает значительные затруднения.

    • Андрей Белевцев Илья
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      07.01.2021 22:35

      Все правильно, источники не любят делиться данными. Здесь на помощь приходят проекты-заказчики, которые обеспечивают бизнес-кейс для интеграции. Некоторые источники осознали, что в их интересах предоставить доступ один раз - нам, чем организовывать доступ для каждого отдельно взятого потребителя данных.

  • Антон Денисов
    Рейтинг: 15
    IBS
    Директор по работе с ключевыми заказчиками
    07.01.2021 22:55

    Добрый день!

    Проект впечатляет своей масштабностью. Желаю успехов в развитии сервиса и его внедрение у новых внутренних заказчиков.

    Хотелось бы уточнить ряд моментов о проекте:
    1. Какая предполагается глубина хранения данных в системе? Есть ли какие-то ограничения или они устанавливаются адресно в зависимости от нужд конкретного проекта?
    2. Интересно, как предполагается выстроить взаимоотношения с внутренними заказчиками в ходе оказания сервиса (получение ресурсов, доступа, реализация необходимых интеграций, загрузка данных, сопровождение выделенного проекту хранилища, ...)?

    Заранее спасибо!

    • Андрей Белевцев Антон
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 00:56

      Антон,

      1. На данный момент мы не планируем длительное хранение самых тяжелых типов и источников данных (Cейсмика и SAP), данный подход позволяет нам создавать полную реплику источников данных, по крайней мере, наиболее популярных источников. При этом интеграция с данными источников находится или в разработке, или в реализации.
      2. Нами разработана финансово-сервисная модель и каталог услуг. Создан центр компетенции, оказывающий эти услуги. Так же разработана ролевая модель доступа к данным, которая встроена в существующие процессы компании.

  • 07.01.2021 23:17

    Здравствуйте, Андрей! Оч. интересный проект!
    Уточните, пожалуйста, какие средства для отказоустойчивости и повышению надежности использовались. Какие дополнительные инструменты использовались? Сколько команд ведет разработку на Платформе? организованы ли процессы CI/CD, если да, то с помощью каких инструментов?
    На сколько сложной получилась ролевая модель для управления доступом к Платформе? Можно ли узнать порядок количества ролей?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 00:55

      Елена,

      И ArenadataDB и Hadoop отказоустойчивы из коробки. Так же мы работаем над интеграцией с общекорпоративной системой резервного копирования (наш проект потребовал ее модернизации). Процесс CI/СD реализован с использованием общекорпоративного Jenkins и TFS. Ролевая модель содержит несколько сотен ролей для десятков источников, интегрированных в хранилище.

  • Иван Никулин
    Рейтинг: 38
    Газпромнефть НТЦ, ООО
    Руководитель проектов. Центр реализации инфраструктурных проектов
    07.01.2021 23:24

    Добрый вечер!

    Каждая предметная область безусловно содержит определенную специфику в работе с данными, нефте-газовая отрасль очевидно не исключение. Расскажите пожалуйста с какими специфичными для вашей отрасли вы столкнулись? Появились ли какие либо ноу-хау? Задумываетесь ли вы о коммерциализации своего решения

    • Андрей Белевцев Иван
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 00:53

      Иван, добрый вечер!

      Совершенно верно. На данный момент мы столкнулись с обработкой данных МWD и данных ГТИ, близко к реальному времени. Нам удалось настроить работу NiFI на работу с WITSML потоком. Другая задача, которую мы решили, - это работа с данными сейсмики, когда используется инфраструктура Hadoop для анализа файла, и его индексации, что позволяет на лету трансформировать неструктурированные данные в структурированные.

      • Иван Никулин Андрей
        Рейтинг: 38
        Газпромнефть НТЦ, ООО
        Руководитель проектов. Центр реализации инфраструктурных проектов
        08.01.2021 21:27

        Большое спасибо за ваш ответ! Кроме работы с данными хотелось бы узнать об использовании внедренных вычислительных ресурсов. Подскажите пожалуйста оценивали ли вы возможность использования внедренной инфраструктуры для решения задач требующих высокопроизводительной вычислительной инфраструктуры? Или же есть какие-либо ограничения в использовании вашего решения для подобной цели?

        • Андрей Белевцев Иван
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          08.01.2021 22:25

          Иван,

          Только часть инфраструктуры может быть использована для решения вычислительных задач, конкретно Hadoop кластер. Однако, так как планов по внедрению высокоскоростного интерконнекта (Infiniband) у нас не было, то применимость нашей инфраструктуры ограничена решением задач массивно-параллельной архитектуры вычислений, ну и наличие GPU позволяет решать некоторые задачи. Но в общем для решения данного типа задач существуют другие подходы.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    08.01.2021 14:47

    Андрей, еще вопрос, если позволите, использутся ли в проекте какие-то специализированные средства по мониторингу инфраструктуры, например zabbix? Так как используются различные механизмы и режимы загрузки данных, то как обеспечивается целостность и последовательность загрузки данных? Если единый управляющий механизм по загрузкам, например Uzi или Airflow?

    • Андрей Белевцев Станислав
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 20:07

      Станислав,

      Да, в качестве средства мониторинга инфраструктуры у нас используется Solarwinds. Для визуализации системы мониторинга используем также Graphana и Kebana. В нашей текущей версии ADH в качестве единого планировщика используется Oozie, после обновления версии он будет заменен на Airflow.

      • Станислав Тарасов Андрей
        Рейтинг: 145
        ГУП «Мосгортранс»
        Заместитель начальника отдела бортового оборудования
        08.01.2021 22:49

        Андрей,

        Мне кажется, что у вас разнородный ландшафт, где есть и потоковая обработка, Informatica, SAP, точно Airflow будет достаточно? А как тогда будете разносить задачи между Informatica и Airflow. Не смотрели в сторону промышленных инструментов управления потоками, типа BMC control-M?

        • Андрей Белевцев Станислав
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          09.01.2021 00:09

          Станислав,

          Действительно ландшафт достаточно разнородный. Однако выбор одного единственного инструмента - это вопрос будущего. В будущем предстоит апробация промышленных инструментов управления потоками.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    08.01.2021 14:48

    И еще один вопрос если позволите про железо, но немного в другой плоскости. У вас в проекте довольно разношерстный набор железа. Почему по блейдам отдали предпочтение серверам Huawei? Под какие задачи используются GPU и посоветуйте, пожалуйста, в каком случае есть смысл смотреть в сторону GPU, т.к. в моем понимании значительную часть задач можно решать на классическом железе.

    • Андрей Белевцев Станислав
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 16:01

      Станислав,

      Проект развивался в течение длительного времени и было две закупки аппаратного обеспечения. На первом этапе решались задачи валидации подхода и накопления компетенции в работе с выбранным программным обеспечением. Первую закупку выиграл Huawei. Второй конкурс выиграл Lenovo. Разнообразие так же объясняется разнообразием внедряемого стека. У Green Plum и Hadoop, например разные требования. Что касается GPU, то в нашем случае это оправдано, для решения задач искусственного интеллекта, если конкретно - для обучения нейронных сетей при решении задач компьютерного зрения и NLP.

  • Александр Данилов
    Рейтинг: 20
    ООО Философия.ИТ
    Партнер
    08.01.2021 16:36

    В последнее время, судя по публикациям в прессе, ваша компания активно участвует в развитии искусственного интеллекта. Как в создаваемом сервисе решаются задачи по направлению искусственного интеллекта? Внедряется ли какой-либо инструментарий направленный на решение данных задач?

    • Андрей Белевцев Александр
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 20:10

      Александр,



      Да, наша компания входит в Альянс по развитию искусственного интеллекта в России. Мы совместно с ведущими технологическими компаниями работаем над внедрением искусственного интеллекта в образовании, научных исследованиях и в практической деятельности бизнеса.

      Сервис интеграции и хранения является неким плацдармом для разрабатываемого в рамках отдельной инициативы - Сервиса работы с ИИ. При этом мы уже в рамках нашего проекта предоставляем нашим заказчикам сервис Spark и внедрили GPU.

  • Илья Лукин
    Рейтинг: 10
    ООО ЛукИнСРМ
    CEO
    08.01.2021 17:25

    Добрый день! Спасибо за описание интересного проекта.
    Подскажите на текущий момент закладывается логика реализации проекта только под внутренние нужды или под дальнейшее коммерческое использование для других компаний отрасли (и возможно ли это вообще?) РФ или Мира?

    • Андрей Белевцев Илья
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 19:58

      Илья, добрый день!

      Действительно, построенное нами решение актуально для других компаний отрасли, включая зарубежных лидеров. Изначально мы инициировали проект, чтобы решать наши собственные задачи. Сейчас мы начинаем задумываться об коммерциализации решения. Главная трудность коммерциализации заключается в том, чтобы компании отрасли не воспринимали нас как конкурента при выборе поставщика услуг.

      • Илья Лукин Андрей
        Рейтинг: 10
        ООО ЛукИнСРМ
        CEO
        09.01.2021 08:00

        Тогда еще есть несколько вопросов. Есть подобный опыт реализации таких коммерческих проектов на мировом рынке (аналогично как в телекоме сперва подобные решения использовались внутри, потом стали продавать во вне) или это вообще первая подобная практика в данной отрасли?
        И как вы видите развитие подобных решений с точки зрения масштабирования? Сейчас, на мой взгляд, только самые крупные игроки могут себе позволить разворачивать такую дорогостоящую инфраструктуру и содержать "мозги" на ее настройку и поддержку. Или у более мелких игроков нет потребности в таких инструментах?

        • Андрей Белевцев Илья
          Рейтинг: 753
          Сбербанк, ПАО
          Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
          13.01.2021 00:03

          Илья, добрый день!

          Речи о коммерциализации сервиса не идет, хотя отрасль уже смотрит в этом направлении. И мы, совместно со всеми, с нетерпением ждем первый, готовый к использованию, релиз платформы OSDU.
          Масштабирование можно оценить как очень хорошее - почти все инструменты поддерживают горизонтальное масштабирование. Потребность в интеграции и анализе данных, так или иначе, есть у всех, и у крупных, и у мелких компаний. Но каждая компания выбирает самостоятельно «строить или покупать готовое» из своих возможностей и ограничений.

  • 08.01.2021 17:39

    Добрый день, изучая железо выбранное для Green Plum и особенно для Hadoop возникают вопросы, рассматривали ли Вы другие конфигурации хранилища? Возможно анализируя результаты внедрения и опытно-промышленной эксплуатации Вы и Ваша команда сделаете что-либо иначе?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 20:02

      Константин, добрый день!

      Идеальных проектов и решений не бывает. Вопросов к выбору аппаратной платформы, обеспечивающей функционирование Arenadata DB, у нас вопросов нет. Для Hadoop возможно мы бы увеличили количество вычислительных ядер и заменили твердотельные диски на жесткие, а также использовали выделенный узел для хранилища. Эти уроки мы учтем в будущем при развитии инфраструктуры сервиса.

  • Михаил Аношин
    Рейтинг: 15
    АО Инфосистемы Джет
    Менеджер
    08.01.2021 21:45

    Добрый день, Андрей!



    В реализации вашего безусловно интересного и сложного проекта не заявлено участие ни одного крупного интегратора российского рынка ИТ-услуг.

    Чем объясняется подобное решение? Столкнулись ли вы с какими-либо проблемами при данном подходе?

    Планируете ли вы привлекать системных интеграторов в будущем?

    • Андрей Белевцев Михаил
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 22:23

      Михаил, добрый день!

      Проект действительно крайне сложный. Внедрено более 200 серверов (включая виртуальные). Разработка нашего сервиса производится в периметре корпоративной сети, что накладывает существенные ограничение на возможность привлечения подрядчиков, на данный моменты мы сфокусировались на создании собственной команды в дочернем обществе.

  • Геннадий Чернышев
    Рейтинг: 20
    Lamoda
    Консультант ERP
    08.01.2021 22:10

    Андрей, добрый вечер! Как ваш сервис поддерживает решение задачи по предиктивной и предписывающей аналитике? Это часть платформы для использования искусственного интеллекта и машинного обучения? Или это разные технологические платформы и сервисы?

    • Андрей Белевцев Геннадий
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 23:34

      Геннадий,

      Это две разные задачи сервиса в ИТ-ландшафте нашей компании, однако решение задач искусственного интеллекта и предиктивной аналитики в частности невозможно без поставки данных, причем как на этапе разработки, так и на этапе последующей эксплуатации. Мы планируем решить задачу за счет интеграции двух сервисов в 2021 году. Прототип интеграции уже реализован.

  • Геннадий Чернышев
    Рейтинг: 20
    Lamoda
    Консультант ERP
    08.01.2021 22:37

    В одном из ответов вы писали, что на данный момент формирование слоя ODS хранилища производится инструментами Green Plum, однако в качестве целевого вы указали Hadoop. Расскажите пожалуйста с чес связан такой поэтапный подход? Разве не проще и дешевле строить слой сразу в целевом виде.

    • Андрей Белевцев Геннадий
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      08.01.2021 23:31

      Геннадий,

      перед проектом стояла задача, как можно раньше начать поставку ценности проектам из пилотного объема, и для этой задачи Arenadata DB подходит гораздо больше, в силу реляционной природы. Так же использование инструментов Informatica в связке с Green Plum требует меньшей экспертизы от инженеров данных, нежели с Hadoop. Таким образом, переход к целевой реализации ODS будет эволюцией нашего хранилища. Экспертиза команды наращивается и готова к эксплуатации решения. Так что на наш взгляд именно такой подход был наиболее эффективным.

  • 08.01.2021 23:23

    Изучая описание вашего технологического стека не понятно использовалась ли виртуализация? Если да, то какая платформа виртуализации использована? Виртуализирован ли вычислительный кластер. Сталкивались ли вы с какими-либо трудностями при использовании виртуализированного вычислительного кластера?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      09.01.2021 00:01

      Дмитрий, добрый вечер!

      Виртуализация используется в ландшафте разработки и пред-продуктивном ландшафте. С проблемами столкнулись только в пред-продуктивном ландшафте по причине Керберизации Hadoop кластера. Вот именно здесь помогла поддержка вендора

  • Иван Никулин
    Рейтинг: 38
    Газпромнефть НТЦ, ООО
    Руководитель проектов. Центр реализации инфраструктурных проектов
    08.01.2021 23:26

    Андрей, подскажите, используете ли вы отраслевую модель данных в вашем сервисе для интеграции данных? Для примера известно, что почти у каждого вендора есть отраслевая модель данных и использую вендорское решение кроме ПО вы покупаете ещё и модель данных на разработку которой уходит довольно много времени и средств.

    • Андрей Белевцев Иван
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      09.01.2021 00:04

      Иван,

      Компания «Газпром нефть», как вам наверняка известно, недавно вступила в концорциум OSDU, именно на данный стандарт мы прежде всего ориентируемся сейчас. Однако вопрос модели данных относится к слою DDS, а эта задача выходит за рамки проекта. Наша задача насытить слой ODS и с этой задачей мы успешно справляемся.

  • 08.01.2021 23:42

    Андрей, подскажите, каким образом вы упрощаете доступ к данным для приложений? Является ли программный интерфейс приложения, интерфейс прикладного программирования частью вашего сервиса? Публикуете ли вы в нем данные? Используете ли для этого уже существующий стандарт? Например REST API?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      09.01.2021 01:27

      Дмитрий,

      Да, действительно одной из ключевых задач является упрощение доступа к данным для приложений. Мы пока не выбрали единого подхода в этом направлении. Сейчас экспериментируем с GraphQL, сделали прототип для одного из приложений, посмотрим насколько он покрывает потребности владельцев приложений, далее будем принимать решение достаточно нам этого или нет.

  • 08.01.2021 23:58

    Андрей, подскажите, насколько ваша платформа является открытой? Планируете ли вы публиковать ваш кол и наработки? Чтобы они стали доступны для российского сообщества профессионалов и отрасли, а возможно и других отраслей.

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      09.01.2021 03:23

      Елена,

      Вопрос публикации этой конкретной разработки не обсуждался, в данном случае, это главным образом доработка решений, выполненных сообществом или вендором. Но в будущем вернемся к этому вопросу.

      А вот публикации других продуктов нашей компании производится. Например, дизайн-система уже опубликована, это полностью опенсорсный продукт.

      В будущем мы однозначно возвращаться к вопросу .

  • 09.01.2021 00:01

    Андрей, подскажите, почему среди баз данных у вас нет объектно-ориентированного хранилища? У вас не так много на сегодня пространственных данных или вы используете для их хранения и обработки Hadoop

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      09.01.2021 03:16

      Дмитрий,
      Очевидно вы имели в виду объектного хранилища. Подобное хранилище у нас внедряется в рамках другого проекта. Дело в том, что невозможно реализовать все виды хранения в рамках одного проекта. Ведь есть еще графовые базы данных, их мы тоже пока не внедряли. Но для обработки данных мы действительно планируем использовать Hadoop.

  • Станислав Тарасов
    Рейтинг: 145
    ГУП «Мосгортранс»
    Заместитель начальника отдела бортового оборудования
    09.01.2021 00:02

    Андрей, читая комментарии, появился еще один вопрос про IoT. сложность сбора информации с датчиков обычно осложняется тем, что они сильно отличаются от классических данныз. Вы на проекте делали собственные адаптеры? Не рассматривали промышленные решения типа Tibbo или аналогов? Есть ли в них смысл или можно все самим делать?

    • Андрей Белевцев Станислав
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      10.01.2021 00:58

      Станислав, добрый день!

      Как уже говорилось выше, вопрос работы с производственными данными
      - задача другого сервиса, разрабатываемого в нашей компании. Мы же планируем осуществить интеграцию с IoT сервисом, как только он достигнет необходимого уровня зрелости, это вопрос ближайшего будущего.

  • 09.01.2021 00:11

    Андрей, и последний от меня вопрос сегодня, подскажите, пожалуйста, в вашем решении есть разграничения на горячие, теплые и холодные данные. Если такие разграничения есть, то как вы реализуете сквозную интеграцию между всеми слоями?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      09.01.2021 03:17

      Данный вопрос для нас не очень актуален и находится в области концептуальной проработки. Наш продукт достаточно молодой. Учитывая тот объем хранилища, который мы внедрили, и ту скорость, с которой оно заполняется, у нас есть в запасе 1.5-2 года на то, чтобы организовать подобное хранение и построение сквозной интеграции слоев. Сейчас мы отрабатываем взаимодействие между Hadoop и S3.

  • 09.01.2021 19:20

    Андрей, добрый день!
    Очень интересный проект, довольно полно раскрытый в диалогах в комментариях.
    Мы в Альфа-банке развиваем похожую платформу. Интересно, что вы бы сделали иначе, если бы начинали проект сейчас, с учетом приобретённого опыта. Выбрали бы другие технологии? Развивали бы по-другому команду? Возможно начали бы с другого или иначе приоритизировали работы и задачи? Были ли какие-то ошибки и открытия, которые позволяют вам сейчас смотреть иначе на выбранные вам подходы, решения, приоритеты?

    • Андрей Белевцев
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      13.01.2021 00:00

      Екатерина, добрый день!

      Это наш опыт и мы его приобрели и будем использовать в развитии нашего сервиса. Технологический ландшафт постоянно меняется, и сейчас появились новые, более интересные инструменты, но нельзя сказать что наш выбор был неверным, единственное может быть бы раньше начали вкладывать усилия в развитие Hadoop и связанных с его эксплуатацией компетенций. Некоторые задачи мы решали бы в другом порядке, но этот опыт актуален для «Газпром нефти», в другом ландшафте это может быть неактуальным. Собственно, те открытия в очередности задач, которые мы сделали, позволили бы нам поставлять ценность проектам еще раньше .

  • Михаил Руженцев
    Рейтинг: 15
    ПАО Сбербанк
    Head of DevOps / Исполнительный директор
    12.01.2021 15:17

    Добрый день, Андрей,
    расскажите, пожалуйста, каким образом у вас в платформе организовано распространение данных для потребителей данных. Возможно у вас есть какие то специальные сервисы для доступа к данным через какой-либо Data API или через подписки на данные? как у вас это организовано?
    Спасибо.

    • Андрей Белевцев Михаил
      Рейтинг: 753
      Сбербанк, ПАО
      Старший вице-президент, главный технический директор, руководитель блока «Технологическое развитие»
      18.01.2021 13:43

      Михаил, добрый день!

      На текущем этапе распространение данных реализовано через стандартные протоколы SQL-доступа к данным. На развитие планируем расширять доступные форматы распространения, включая, например, тестируемый в настоящее время – GraphQL, и реализовать механизмы просмотра ассортимента данных, выбора необходимых данных с нужным регламентом обновления и показателями качества, оформления и управления подпиской на них.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.