Внедрение корпоративного Озера данных

Заказчик:
Магнит
Руководитель проекта со стороны заказчика
Поставщик
Glowbyte, Data Sapience
Год завершения проекта
2024
Сроки выполнения проекта
август, 2023 — октябрь, 2024
Масштаб проекта
34000 человеко-часов
Цели

Импортозамещение и демократизация данных в компании путём предоставления доступа к сырым данным, подготовка почвы к миграции текущей платформы данных:

  1. Повысить доступность данных в компании  

  2. Сократить time2market предоставления данных для задач аналитики и прототипирования

  3. Предоставить потребителям описание сырых данных, ускорить поиск нужных данных в платформе

  4. Организовать прозрачный и контролируемый процесс использования данных для поставщиков данных

  5. Сократить стоимость хранения данных в платформе

  6. Сократить количество сетевых связей в контуре компании и, как следствие, затраты на интеграции и поддержку

  7. Обеспечить доступность необходимых данных для миграции текущей платформы данных

Развернутый перечень основных задач большого проекта, которые мы поставили перед собой (от внедрения инструментов до подключения ИС и подготовки пользовательских инструкций), а также дополнительных задач, возникших в ходе проекта, попробуем предоставить в комментариях.

Результаты

Совместно с интегратором Glowbyte и поставленными им продуктами от вендора Data Sapience все обозначенные задачи MVP были выполнены в полном объеме, а также выполнен ряд новых задач, которые возникли в процессе работ и были включены в MVP.

Получены следующие количественные результаты:

  • Выявили потребность в подключении к Озеру для ~200 ИС

  • Подключили к Озеру 20 ИС

  • Загрузили в Озеро и регулярно обновляем более 200 объектов данных

  • Загрузили более 200 ТБ данных и в части загруженных объектов уже сейчас ежемесячно прирастаем на 10%

  • Кратно сократили time2market предоставления доступа к данным: например, загрузили в Озеро и поставили на регламентное обновление 10 объектов данных из 3ёх ИС, а затем предоставили доступ к этим данным в Озере за 3 дня (витрину на тех же данных в старой платформе пришлось бы ждать в среднем 50 дней)

  • Можем развернуть изолированный контур со всеми инструментами платформы за 1 день

Уникальность проекта

Проект, реализованный в облаке на open-source технологиях, предоставляет компании ранее отсутствующую функциональность и открывает ряд новых возможностей: 

  • Функциональность:

    • предоставление доступа к сырым (но детально описанным) данным из различных информационных систем (ИС) для задач аналитики в одном месте

    • хранение исторических данных ИС

    • сохранение истории изменений данных ИС

  • Возможность:

    • Демократизация данных

    • Сначала аналитика/прототипирование, потом отчетность

    • Импортозамещение текущего Хранилища данных

    • Оптимизация числа интеграций в контуре компании

    • Возможность восстановить состояние ИС на любой момент времени после интеграции с Озером (доп уровень резервирования данных)

    • Оптимизация затрат на инфраструктуру с использованием облачной модели pay-as-you-go (можно «охладить» данные ИС в Озере)

    • Возможность быстрого масштабирования инфраструктуры

  • Стратегическое значение:

    • Фундамент для миграции текущего КХД

    • Поддержка Data-Driven подхода к принятию решений за счёт демократизации доступа к данным

Проект решает задачи импортозамещения
Да
Использованное ПО
  1. Data Ocean Nova – lakehouse-платформа данных нового поколения. Совмещает подход Data Warehouse и возможности масштабирования Data Lake. Позволяет создавать инсталляции в публичном и частном облаке, on-premise, а также при гибридном подходе и масштабировать оперативный слой данных в режиме реального времени. Обеспечивает принцип доменного разделения Data Mesh в едином инфраструктурном подходе

  2. Data Ocean Flex Loader – инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3. Позволяет настраивать достоверную загрузку из систем-источников данных без изменений в кратчайшие сроки

  3. Data Ocean Cluster Manager – программное обеспечение для администрирования кластеров и анализа запросов. Обеспечивает непрерывное отслеживание состояния инфраструктуры и оперативную реакцию на возможные инциденты

  4. Streaming Data Integration (SDI) - инструмент для высокопроизводительной интеграции данных

Сложность реализации

В ходе обследования текущих интеграций и всего ландшафта ИТ систем компании мы увидели широкое разнообразие используемых технологий и способов интеграций, которые необходимо было унифицировать для новой платформы.

В ходе проекта неоднократно отклонялись от первоначальных границ проекта:

  • потребность в расширении перечня способов интеграции для импорта данных в Озеро (например, ИС на базе 1С вместо СУБД и файловых шар интегрируются через Kafka REST Proxy)

  • потребность в расширении перечня способов получения данных из Озера (например, для выгрузки большого объема данных во внешнюю ИС)

  • потребность в доработке инструментов, которые заточены на загрузку «чистых» данных

Так как концептуальные изменения платформы данных повлияли на её поставщиков и потребителей возник ряд организационных сложностей:

  • изменить текущие стандарты интеграции и «продать» Озеро данных внутри компании

  • описать и отстоять сценарии использования Озера в контуре компании и не стать корпоративной шиной данных

Описание проекта

В компании около 10 000 пользователей данных, которые используют многоуровневую платформу, содержащую >1 Пб данных. Примерно 2500 пользователей обращаются напрямую к центральному элементу платформы, корпоративному хранилищу данных, которое развивается уже 13 лет и содержит более 500 Тб данных.

За это время в система стала сверхсложной: в неё интегрировано большое количество систем источников данных, а пользователи обращаются к 5000 витринам данных. Витрины содержат большое количество legacy-кода, далеко не все из них описаны, некоторые витрины дублируют друг друга. Помимо всего прочего реализация новой витрины – это длительный процесс, t2m очень большой. В связи с этим в том числе в платформе появилось большое количество пользовательских «песочниц», их более 80.

В середине 2023 года было принято решение о необходимости импортозамещения и рефакторинга функциональности текущей платформы данных, а также концепции по предоставлению доступа к данным в ней. Большой time2market предоставления данных для аналитики и невозможность работы с сырыми данными разных информационных систем укрепили уверенность в том, что в новой платформе должно появиться Озеро сырых данных. С учётом общего вектора компании на облачные сервисы и оценки преимуществ, которые они предлагают в контексте хранения больших объемов данных (стоимость, модель pay-as-you-go), было принято решение о реализации проекта в облаке.

В процессе изучения разных паттернов для реализации платформы данных в общем и Озера данных в частности (Data Lake vs DWH vs Data Lakehouse) мы поняли, что в чистом виде ни одна из них не отражает наше видение новой архитектуры. Остановились на гибридном подходе, который содержит в себе постулаты из каждого. Фундаментом новой платформы выступает Озеро данных, в котором:

  • реализована версионность в SCD4

  • все данные в формате источника без трансформаций

  • все загружаемые данные описаны

В рамках обследования при подготовке к проекту проанализировали интеграции с текущей платформой данных и определили MVP технологий (Batch, CDC, Kafka), которые необходимо использовать для подключения информационных систем, нужных для её миграции (таких более 60). Информационных систем с ценными сырыми данными в компании гораздо больше (~200), но в такой задаче нужно от чего-то отталкиваться.

Обозначили границы MVP проекта:

  • проработать архитектуру Озера данных в Яндекс.Облаке

  • внедрить инструменты для подключения ИС и доставки данных до Озера

  • разработать инструменты для формирования истории изменения состояния источника по доставленным до Озера данных

  • подключить не менее одной ИС каждого типа и протестировать все заявленные технологии

  • предоставить ИС компании доступ к данным Озера для настройки экспортных потоков

География проекта

Все бизнес-подразделения федеральной розничной сети Магнит.

Коментарии: 13

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Павел Шорохов
    Рейтинг: 717
    Магнит
    Директор департамента по работе с данными
    08.11.2024 13:26

    В дополнение к описанию раздела "Цели".Основные задачи проекта:

    1. Импортозаместить технологии, используемые в текущей корпоративной платформе данных
    2. Развернуть в облачной среде решение для безопасного и дешевого хранения данных
    3. Обеспечить возможность быстрого и автоматизированного масштабирования платформы
    4. Создать стандарт интеграции информационных систем с Озером данных, унифицирующий передачу данных в него как из внутренних, так и из внешних информационных систем
    5. Развернуть в облачной среде инструменты для загрузки данных из информационных систем в Озеро 
    6. Реализовать и внедрить коннекторы для интеграции с различными типами информационных систем, обеспечив широкий охват источников и типов задач загрузки данных
    7. Разработать инструментарий на стороне Озера для предоставления возможности восстановления среза данных информационной системы на любой момент времени после интеграции с Озером
    8. Разработать потоки из информационных систем разных типов разными инструментами/коннекторами
    9. Автоматизировать взаимодействие разработчиков с инструментами для сокращения t2m и снижения операционных рисков 
    10. Формализовать архитектуру решения и предоставить инструкции для пользователей инструментов, минимизирующие время на погружение для начала их использования
    11. Подключить более 60 ИС, обеспечить загрузку и обновление данных, необходимых для миграции текущей платформы данных (более 1000 объектов)
    Дополнительные задачи, которые возникли в процессе работ над основными:
    1. Разработать методику для определения потребности в интеграции информационной системы с корпоративным Озером данных
    2. Проработать общекорпоративный процесс подключения информационных систем к Озеру данных с использованием разработанных стандартов интеграции
    3. Организовать вовлечение ИТ-лидеров и владельцев ключевых информационных систем компании в процесс подключения к Озеру данных
    4. Организовать работу над повышением качества данных в системах-источниках, поставляющих данные в Озеро

  • Олег Молчанов
    Рейтинг: 25
    Магнит (розничная сеть)
    Руководитель направления по метаданным и качеству данных
    27.12.2024 12:04

    Павел, а с какими конкретно организационными сложностями столкнулись? Удалось "продать" Озеро внутри компании? Как "производители" данных отреагировали на необходимость новых интеграций? Как планировался бюджет на подобные "интеграции"?

    • Павел Шорохов Олег
      Рейтинг: 717
      Магнит
      Директор департамента по работе с данными
      28.12.2024 10:18

      Добрый день! В самом начале мы столкнулись с серьезным сопротивлением внутри компании, владельцы информационных систем видели задачу исключительно как новую дополнительную интеграцию, которая им самим никакой пользы не несёт. В совокупности с тем, что задача является ITшной и не имеет прямого экономического эффекта, командам ИС было непросто выделить ресурс на задачи интеграций. Команде Озера данных пришлось провести не один десяток массовых митапов и коммуникаций внутри IT для того, чтобы донести преимущества появления корпоративного Озера данных и ценность данной интеграции для ИС в перспективе. Показали, что появление еще одной интеграции должно избавить ИС от появления множества таковых в будущем (как на экспорт, так и на импорт), а также позволит оптимизировать текущие. Кроме этого каждая ИС сможет увидеть, кто и какие данные этой ИС потребляет. В конце концов нам удалось "сломить" сопротивление и начать совместную работу по наполнению Озера данными. Но впереди еще более амбициозное организационное изменение: предоставить self-service для команд ИС и сделать интеграцию с Data Lake продолжением ИС.

  • Александр Кулиев
    Рейтинг: 90
    Бургер Кинг
    Chief Data Officer (CDO)
    28.12.2024 17:57

    В рамках миграции часто сложно определить, какие данные наиболее критичны для бизнеса, в каком порядке подключать системы источники, чтобы обеспечить данными отчеты первого приоритете и оптимально распределить ресурсы. Как вы подходили к приоритизации источников и предметных областей для загрузки в Озеро данных?

    • Павел Шорохов Александр
      Рейтинг: 717
      Магнит
      Директор департамента по работе с данными
      08.01.2025 23:08

      Добрый вечер! В процессе миграции и построения корпоративного Озера данных мы применили системный подход к приоритезации источников данных, который опирался на несколько ключевых факторов: 1. Определение бизнес-приоритетовСовместно с ключевыми стейкхолдерами и бизнес-подразделениями мы определили критические для бизнеса отчеты и функциональность. Это позволило сформировать список предметных областей и систем-источников, обеспечивающих данными этот функционал, а также определить их приоритетность. 2. Анализ взаимосвязей между источникамиМы составили карту взаимозависимостей между системами-источниками. На основании этого анализа определяли, какие источники "рождают" ключевые первичные данные, необходимые для загрузки производных данных. Это помогло оптимизировать порядок подключения источников и минимизировать дублирование данных. 3. Оценка сложности интеграцииДля каждой системы-источника был проведен анализ сложности интеграции (способ интеграции, объем данных, качество, требуемая частота обновления). Источники с наименьшей сложностью и высокой ценностью для бизнеса подключались первыми, что позволило быстро продемонстрировать первый результат и повысить доверие к проекту. 4. Итеративный подход к загрузке данныхПроцесс подключения источников и предметных областей был организован в формате итераций. После каждой итерации проводился анализ достигнутых результатов и корректировка приоритетов в зависимости от изменения бизнес-потребностей или внешних факторов.

  • Таиса Дасаева
    Рейтинг: 362
    ООО КРАСНОГОРСКИЙ МПК
    ИТ директор
    29.12.2024 14:49

    Добрый день! Наличие внутренней команды экспертов часто ставит под вопрос необходимость привлечения внешних интеграторов. Почему для реализации проекта вы решили воспользоваться услугами интегратора, а не полностью опираться на собственные ресурсы?

    • Павел Шорохов Таиса
      Рейтинг: 717
      Магнит
      Директор департамента по работе с данными
      01.01.2025 17:52

      Добрый день! У нас действительно большая внутренняя команда экспертов, которая очень хорошо знает текущую платформу, но не имеет опыта в построении решений с учетом стоящих перед нами ограничений. К тому же у текущей платформы очень много пользователей и интеграций, мы просто не могли снизить уровень предоставляемого сервиса, переключив команду на разработку новой платформы. По совокупности факторов мы приняли решение обратиться за помощью к интеграторам, у которых нужные нам опыт и экспертиза есть. Эту экспертизу мы перенимаем постепенно и в ближайшее время внутренняя команда сможет закрывать любые задачи в новой платформе.

  • Бауржан Касенов
    Рейтинг: 347
    АО НК "КазМунайГаз"
    Директор департамента
    02.01.2025 17:20

    Павел, добрый день! Для поддержания конкурентоспособности важно иметь долгосрочную стратегию развития ключевых систем. Является ли корпоративное Озеро данных такой системой? Если да, то какие планы его дальнейшего развития?

    • Павел Шорохов Бауржан
      Рейтинг: 717
      Магнит
      Директор департамента по работе с данными
      08.01.2025 23:10

      Бауржан, добрый вечер! Определенно Озеро данных в составе новой копроративной платформы данных займет место в ряде ключевых ИС компании и изменит подход к работе с данными внутри Магнита. Помимо наполнения Озера данными мы фокусируемся на том, чтобы предоставить командам ИС self-service для самостоятельного подключения и загрузки данных в Data Lake. Это позволит сделать интеграцию с Озером продолжением ИС и сократить t2m реализации новых потоков данных и изменений в ИС до него. Также в планах организовать хранилище сырых файлов (в том числе неструктурированных) и прорабатывать новые способы предоставления доступа к данным для удобства потребителей. Ну и конечно продолжим заниматься автоматизациями и оптимизациями, чтобы сокращать t2m появления новых потоков данных в платформе.

  • Дмитрий Власов
    Рейтинг: 32
    Магнит (АО«Тандер»)
    Руководитель управления по администрированию данных
    05.01.2025 13:19

    Насколько понимаю одна из фундаментальных проблем при внедрении и эксплуатации облачных решений - это вопросы быстродействия инструментов / фреймворков в сравнении с привычными для пользователей (привыкшим "к хорошему") пропиетарными корпоративными решениями. Столкнулись ли с подобными проблемами в проекте? как решали?

    • Павел Шорохов Дмитрий
      Рейтинг: 717
      Магнит
      Директор департамента по работе с данными
      08.01.2025 23:16

      Добрый вечер!Да, мы осознавали риск того, что open source технологии могут уступать привычным проприетарным решениям по быстродействию и удобству для конечных пользователей. Однако с самого начала проекта команда уделяла особое внимание этим вопросам, и нам удалось выстроить решение, способное удовлетворить наши требования к производительности. 1. Выбор инструментов и фреймворковМы провели детальный анализ доступных open source инструментов по нескольким критериям: производительность, масштабируемость, поддержка со стороны сообщества и совместимость с другими компонентами системы. Это позволило сформировать архитектуру, ориентированную на высокую скорость обработки данных. Кстати, все эти инструменты завёрнуты в продукты нашего вендора Data Sapience, который заинтересован в плотной интеграцию всех компонентов платформы, а также оптимизации процессов обработки и передачи данных для достижения показателей производительности, сравнимых с проприетарными системами. 2. Оптимизация процессов обработки данныхБыли внедрены механизмы управления нагрузкой, кэширования данных и параллельной обработки запросов. Это помогло устранить узкие места и значительно сократить время выполнения операций в платформе. 3. Проведение нагрузочного тестированияНа этапе внедрения мы организовали серию нагрузочных тестов, которые позволили выявить и устранить ряд проблем, связанных с производительностью. По итогам тестирования были внедрены дополнительные улучшения, включая настройку кластеров и параметров фреймворков. Также вместе с командой ЯО протестировали Private Endpoint S3, получили ускорение в 1,5-2 раза в части обращений к S3. 4. Обучение пользователейМы осознавали, что для пользователей важна не только скорость работы, но и привычный функционал. Поэтому наряду с техническими улучшениями было организовано обучение и предоставлены инструкции по наиболее эффективному использованию инструментов. Воспитываем в команде новые привычки, но хочу обратить внимание, что нам очень повезло, что все

  • Сергей Черномырдин
    Рейтинг: 20
    ПАО Магнит
    Руководитель
    08.01.2025 23:47

    Добрый вечер! Использование нескольких инструментов для интеграции может повысить гибкость, но требует четкого понимания их ролей, области эффективного использования. Почему в вашем проекте для задач интеграции используются и Data Ocean Flex Loader, и Streaming Data Integration (SDI)? Какие задачи решает каждый из них?

    • Павел Шорохов Сергей
      Рейтинг: 717
      Магнит
      Директор департамента по работе с данными
      08.01.2025 23:52

      Добрый вечер! Для Озера приоритетным способом интеграции является CDC, таким образом мы не теряем изменений в ИС и можем восстановить её состояние на любой момент времени после интеграции. Для CDC интеграций мы используем связку Debezium + Kafka, с которой хорошо работает инструмент для стриминга - SDI. Но не каждая ИС готова не своей стороне к дополнительной нагрузке, к администрированию конфигурации CDC и обеспечению статичности структуры БД. Также стриминговый инструмент (SDI) хорошо работает с потоковыми интеграциями через Kafka, когда ИС готова сама отправлять транзакции или изменения в ИС.Flex Loader используем для батчовых интеграций, если в ИС нет возможности выделить изменения или они происходят очень редко и стриминг просто не нужен.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.