Внедрение корпоративного Озера данных

Руководитель проекта со стороны заказчика

Павел Шорохов

Магнит

Директор департамента по работе с данными
Цели
Импортозамещение и демократизация данных в компании путём предоставления доступа к сырым данным, подготовка почвы к миграции текущей платформы данных:
1. Повысить доступность данных в компании
2. Сократить time2market предоставления данных для задач аналитики и прототипирования
3. Предоставить потребителям описание сырых данных, ускорить поиск нужных данных в платформе
4. Организовать прозрачный и контролируемый процесс использования данных для поставщиков данных
5. Сократить стоимость хранения данных в платформе
6. Сократить количество сетевых связей в контуре компании и, как следствие, затраты на интеграции и поддержку
7. Обеспечить доступность необходимых данных для миграции текущей платформы данных
Развернутый перечень основных задач большого проекта, которые мы поставили перед собой (от внедрения инструментов до подключения ИС и подготовки пользовательских инструкций), а также дополнительных задач, возникших в ходе проекта, попробуем предоставить в комментариях.
Сроки выполнения

август, 2023 — октябрь, 2024
Год завершения проекта

2024
Масштаб проекта

34000 человеко-часов
Результаты
Совместно с интегратором Glowbyte и поставленными им продуктами от вендора Data Sapience все обозначенные задачи MVP были выполнены в полном объеме, а также выполнен ряд новых задач, которые возникли в процессе работ и были включены в MVP.

Получены следующие количественные результаты:
- Выявили потребность в подключении к Озеру для ~200 ИС
- Подключили к Озеру 20 ИС
- Загрузили в Озеро и регулярно обновляем более 200 объектов данных
- Загрузили более 200 ТБ данных и в части загруженных объектов уже сейчас ежемесячно прирастаем на 10%
- Кратно сократили time2market предоставления доступа к данным: например, загрузили в Озеро и поставили на регламентное обновление 10 объектов данных из 3ёх ИС, а затем предоставили доступ к этим данным в Озере за 3 дня (витрину на тех же данных в старой платформе пришлось бы ждать в среднем 50 дней)
- Можем развернуть изолированный контур со всеми инструментами платформы за 1 день
Уникальность проекта
Проект, реализованный в облаке на open-source технологиях, предоставляет компании ранее отсутствующую функциональность и открывает ряд новых возможностей:
- Функциональность:
  - предоставление доступа к сырым (но детально описанным) данным из различных информационных систем (ИС) для задач аналитики в одном месте
  - хранение исторических данных ИС
  - сохранение истории изменений данных ИС
- Возможность:
  - Демократизация данных
  - Сначала аналитика/прототипирование, потом отчетность
  - Импортозамещение текущего Хранилища данных
  - Оптимизация числа интеграций в контуре компании
  - Возможность восстановить состояние ИС на любой момент времени после интеграции с Озером (доп уровень резервирования данных)
  - Оптимизация затрат на инфраструктуру с использованием облачной модели pay-as-you-go (можно «охладить» данные ИС в Озере)
  - Возможность быстрого масштабирования инфраструктуры
- Стратегическое значение:
  - Фундамент для миграции текущего КХД
  - Поддержка Data-Driven подхода к принятию решений за счёт демократизации доступа к данным
Использованное ПО
1. Data Ocean Nova – lakehouse-платформа данных нового поколения. Совмещает подход Data Warehouse и возможности масштабирования Data Lake. Позволяет создавать инсталляции в публичном и частном облаке, on-premise, а также при гибридном подходе и масштабировать оперативный слой данных в режиме реального времени. Обеспечивает принцип доменного разделения Data Mesh в едином инфраструктурном подходе
2. Data Ocean Flex Loader – инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3. Позволяет настраивать достоверную загрузку из систем-источников данных без изменений в кратчайшие сроки
3. Data Ocean Cluster Manager – программное обеспечение для администрирования кластеров и анализа запросов. Обеспечивает непрерывное отслеживание состояния инфраструктуры и оперативную реакцию на возможные инциденты
4. Streaming Data Integration (SDI) - инструмент для высокопроизводительной интеграции данных
Решение из каталога Global CIO

В проекте не используются решения из каталога Global CIO
Сложность реализации
В ходе обследования текущих интеграций и всего ландшафта ИТ систем компании мы увидели широкое разнообразие используемых технологий и способов интеграций, которые необходимо было унифицировать для новой платформы.

В ходе проекта неоднократно отклонялись от первоначальных границ проекта:
- потребность в расширении перечня способов интеграции для импорта данных в Озеро (например, ИС на базе 1С вместо СУБД и файловых шар интегрируются через Kafka REST Proxy)
- потребность в расширении перечня способов получения данных из Озера (например, для выгрузки большого объема данных во внешнюю ИС)
- потребность в доработке инструментов, которые заточены на загрузку «чистых» данных
Так как концептуальные изменения платформы данных повлияли на её поставщиков и потребителей возник ряд организационных сложностей:
- изменить текущие стандарты интеграции и «продать» Озеро данных внутри компании
- описать и отстоять сценарии использования Озера в контуре компании и не стать корпоративной шиной данных
Описание
В компании около 10 000 пользователей данных, которые используют многоуровневую платформу, содержащую >1 Пб данных. Примерно 2500 пользователей обращаются напрямую к центральному элементу платформы, корпоративному хранилищу данных, которое развивается уже 13 лет и содержит более 500 Тб данных.

За это время в система стала сверхсложной: в неё интегрировано большое количество систем источников данных, а пользователи обращаются к 5000 витринам данных. Витрины содержат большое количество legacy-кода, далеко не все из них описаны, некоторые витрины дублируют друг друга. Помимо всего прочего реализация новой витрины – это длительный процесс, t2m очень большой. В связи с этим в том числе в платформе появилось большое количество пользовательских «песочниц», их более 80.

В середине 2023 года было принято решение о необходимости импортозамещения и рефакторинга функциональности текущей платформы данных, а также концепции по предоставлению доступа к данным в ней. Большой time2market предоставления данных для аналитики и невозможность работы с сырыми данными разных информационных систем укрепили уверенность в том, что в новой платформе должно появиться Озеро сырых данных. С учётом общего вектора компании на облачные сервисы и оценки преимуществ, которые они предлагают в контексте хранения больших объемов данных (стоимость, модель pay-as-you-go), было принято решение о реализации проекта в облаке.

В процессе изучения разных паттернов для реализации платформы данных в общем и Озера данных в частности (Data Lake vs DWH vs Data Lakehouse) мы поняли, что в чистом виде ни одна из них не отражает наше видение новой архитектуры. Остановились на гибридном подходе, который содержит в себе постулаты из каждого. Фундаментом новой платформы выступает Озеро данных, в котором:
- реализована версионность в SCD4
- все данные в формате источника без трансформаций
- все загружаемые данные описаны
В рамках обследования при подготовке к проекту проанализировали интеграции с текущей платформой данных и определили MVP технологий (Batch, CDC, Kafka), которые необходимо использовать для подключения информационных систем, нужных для её миграции (таких более 60). Информационных систем с ценными сырыми данными в компании гораздо больше (~200), но в такой задаче нужно от чего-то отталкиваться.

Обозначили границы MVP проекта:
- проработать архитектуру Озера данных в Яндекс.Облаке
- внедрить инструменты для подключения ИС и доставки данных до Озера
- разработать инструменты для формирования истории изменения состояния источника по доставленным до Озера данных
- подключить не менее одной ИС каждого типа и протестировать все заявленные технологии
- предоставить ИС компании доступ к данным Озера для настройки экспортных потоков
География проекта

Все бизнес-подразделения федеральной розничной сети Магнит.

Комментировать ¹³

Комментировать могут только авторизованные пользователи.
Предлагаем Вам войти в систему или зарегистрироваться.

Павел Шорохов 08.11.2024 13:26

Магнит

Директор департамента по работе с данными
В дополнение к описанию раздела "Цели".Основные задачи проекта:
1. Импортозаместить технологии, используемые в текущей корпоративной платформе данных
2. Развернуть в облачной среде решение для безопасного и дешевого хранения данных
3. Обеспечить возможность быстрого и автоматизированного масштабирования платформы
4. Создать стандарт интеграции информационных систем с Озером данных, унифицирующий передачу данных в него как из внутренних, так и из внешних информационных систем
5. Развернуть в облачной среде инструменты для загрузки данных из информационных систем в Озеро
6. Реализовать и внедрить коннекторы для интеграции с различными типами информационных систем, обеспечив широкий охват источников и типов задач загрузки данных
7. Разработать инструментарий на стороне Озера для предоставления возможности восстановления среза данных информационной системы на любой момент времени после интеграции с Озером
8. Разработать потоки из информационных систем разных типов разными инструментами/коннекторами
9. Автоматизировать взаимодействие разработчиков с инструментами для сокращения t2m и снижения операционных рисков
10. Формализовать архитектуру решения и предоставить инструкции для пользователей инструментов, минимизирующие время на погружение для начала их использования
11. Подключить более 60 ИС, обеспечить загрузку и обновление данных, необходимых для миграции текущей платформы данных (более 1000 объектов)
Дополнительные задачи, которые возникли в процессе работ над основными:
1. Разработать методику для определения потребности в интеграции информационной системы с корпоративным Озером данных
2. Проработать общекорпоративный процесс подключения информационных систем к Озеру данных с использованием разработанных стандартов интеграции
3. Организовать вовлечение ИТ-лидеров и владельцев ключевых информационных систем компании в процесс подключения к Озеру данных
4. Организовать работу над повышением качества данных в системах-источниках, поставляющих данные в Озеро
Ответить
Олег Молчанов 27.12.2024 12:04

Магнит (розничная сеть)

Руководитель направления по метаданным и качеству данных

Павел, а с какими конкретно организационными сложностями столкнулись? Удалось "продать" Озеро внутри компании? Как "производители" данных отреагировали на необходимость новых интеграций? Как планировался бюджет на подобные "интеграции"?

Ответить
- Павел Шорохов 28.12.2024 10:18
  
  Магнит
  
  Директор департамента по работе с данными
  
  Добрый день! В самом начале мы столкнулись с серьезным сопротивлением внутри компании, владельцы информационных систем видели задачу исключительно как новую дополнительную интеграцию, которая им самим никакой пользы не несёт. В совокупности с тем, что задача является ITшной и не имеет прямого экономического эффекта, командам ИС было непросто выделить ресурс на задачи интеграций. Команде Озера данных пришлось провести не один десяток массовых митапов и коммуникаций внутри IT для того, чтобы донести преимущества появления корпоративного Озера данных и ценность данной интеграции для ИС в перспективе. Показали, что появление еще одной интеграции должно избавить ИС от появления множества таковых в будущем (как на экспорт, так и на импорт), а также позволит оптимизировать текущие. Кроме этого каждая ИС сможет увидеть, кто и какие данные этой ИС потребляет. В конце концов нам удалось "сломить" сопротивление и начать совместную работу по наполнению Озера данными. Но впереди еще более амбициозное организационное изменение: предоставить self-service для команд ИС и сделать интеграцию с Data Lake продолжением ИС.
  
  Ответить
Александр Кулиев 28.12.2024 17:57

Бургер Кинг

Chief Data Officer (CDO)

В рамках миграции часто сложно определить, какие данные наиболее критичны для бизнеса, в каком порядке подключать системы источники, чтобы обеспечить данными отчеты первого приоритете и оптимально распределить ресурсы. Как вы подходили к приоритизации источников и предметных областей для загрузки в Озеро данных?

Ответить
- Павел Шорохов 08.01.2025 23:08
  
  Магнит
  
  Директор департамента по работе с данными
  
  Добрый вечер! В процессе миграции и построения корпоративного Озера данных мы применили системный подход к приоритезации источников данных, который опирался на несколько ключевых факторов: 1. Определение бизнес-приоритетовСовместно с ключевыми стейкхолдерами и бизнес-подразделениями мы определили критические для бизнеса отчеты и функциональность. Это позволило сформировать список предметных областей и систем-источников, обеспечивающих данными этот функционал, а также определить их приоритетность. 2. Анализ взаимосвязей между источникамиМы составили карту взаимозависимостей между системами-источниками. На основании этого анализа определяли, какие источники "рождают" ключевые первичные данные, необходимые для загрузки производных данных. Это помогло оптимизировать порядок подключения источников и минимизировать дублирование данных. 3. Оценка сложности интеграцииДля каждой системы-источника был проведен анализ сложности интеграции (способ интеграции, объем данных, качество, требуемая частота обновления). Источники с наименьшей сложностью и высокой ценностью для бизнеса подключались первыми, что позволило быстро продемонстрировать первый результат и повысить доверие к проекту. 4. Итеративный подход к загрузке данныхПроцесс подключения источников и предметных областей был организован в формате итераций. После каждой итерации проводился анализ достигнутых результатов и корректировка приоритетов в зависимости от изменения бизнес-потребностей или внешних факторов.
  
  Ответить
Таиса Дасаева 29.12.2024 14:49

ООО КРАСНОГОРСКИЙ МПК

ИТ директор

Добрый день! Наличие внутренней команды экспертов часто ставит под вопрос необходимость привлечения внешних интеграторов. Почему для реализации проекта вы решили воспользоваться услугами интегратора, а не полностью опираться на собственные ресурсы?

Ответить
- Павел Шорохов 01.01.2025 17:52
  
  Магнит
  
  Директор департамента по работе с данными
  
  Добрый день! У нас действительно большая внутренняя команда экспертов, которая очень хорошо знает текущую платформу, но не имеет опыта в построении решений с учетом стоящих перед нами ограничений. К тому же у текущей платформы очень много пользователей и интеграций, мы просто не могли снизить уровень предоставляемого сервиса, переключив команду на разработку новой платформы. По совокупности факторов мы приняли решение обратиться за помощью к интеграторам, у которых нужные нам опыт и экспертиза есть. Эту экспертизу мы перенимаем постепенно и в ближайшее время внутренняя команда сможет закрывать любые задачи в новой платформе.
  
  Ответить
Бауржан Касенов 02.01.2025 17:20

АО НК "КазМунайГаз"

Директор департамента

Павел, добрый день! Для поддержания конкурентоспособности важно иметь долгосрочную стратегию развития ключевых систем. Является ли корпоративное Озеро данных такой системой? Если да, то какие планы его дальнейшего развития?

Ответить
- Павел Шорохов 08.01.2025 23:10
  
  Магнит
  
  Директор департамента по работе с данными
  
  Бауржан, добрый вечер! Определенно Озеро данных в составе новой копроративной платформы данных займет место в ряде ключевых ИС компании и изменит подход к работе с данными внутри Магнита. Помимо наполнения Озера данными мы фокусируемся на том, чтобы предоставить командам ИС self-service для самостоятельного подключения и загрузки данных в Data Lake. Это позволит сделать интеграцию с Озером продолжением ИС и сократить t2m реализации новых потоков данных и изменений в ИС до него. Также в планах организовать хранилище сырых файлов (в том числе неструктурированных) и прорабатывать новые способы предоставления доступа к данным для удобства потребителей. Ну и конечно продолжим заниматься автоматизациями и оптимизациями, чтобы сокращать t2m появления новых потоков данных в платформе.
  
  Ответить
Дмитрий Власов 05.01.2025 13:19

Магнит (АО«Тандер»)

Руководитель управления по администрированию данных

Насколько понимаю одна из фундаментальных проблем при внедрении и эксплуатации облачных решений - это вопросы быстродействия инструментов / фреймворков в сравнении с привычными для пользователей (привыкшим "к хорошему") пропиетарными корпоративными решениями. Столкнулись ли с подобными проблемами в проекте? как решали?

Ответить
- Павел Шорохов 08.01.2025 23:16
  
  Магнит
  
  Директор департамента по работе с данными
  
  Добрый вечер!Да, мы осознавали риск того, что open source технологии могут уступать привычным проприетарным решениям по быстродействию и удобству для конечных пользователей. Однако с самого начала проекта команда уделяла особое внимание этим вопросам, и нам удалось выстроить решение, способное удовлетворить наши требования к производительности. 1. Выбор инструментов и фреймворковМы провели детальный анализ доступных open source инструментов по нескольким критериям: производительность, масштабируемость, поддержка со стороны сообщества и совместимость с другими компонентами системы. Это позволило сформировать архитектуру, ориентированную на высокую скорость обработки данных. Кстати, все эти инструменты завёрнуты в продукты нашего вендора Data Sapience, который заинтересован в плотной интеграцию всех компонентов платформы, а также оптимизации процессов обработки и передачи данных для достижения показателей производительности, сравнимых с проприетарными системами. 2. Оптимизация процессов обработки данныхБыли внедрены механизмы управления нагрузкой, кэширования данных и параллельной обработки запросов. Это помогло устранить узкие места и значительно сократить время выполнения операций в платформе. 3. Проведение нагрузочного тестированияНа этапе внедрения мы организовали серию нагрузочных тестов, которые позволили выявить и устранить ряд проблем, связанных с производительностью. По итогам тестирования были внедрены дополнительные улучшения, включая настройку кластеров и параметров фреймворков. Также вместе с командой ЯО протестировали Private Endpoint S3, получили ускорение в 1,5-2 раза в части обращений к S3. 4. Обучение пользователейМы осознавали, что для пользователей важна не только скорость работы, но и привычный функционал. Поэтому наряду с техническими улучшениями было организовано обучение и предоставлены инструкции по наиболее эффективному использованию инструментов. Воспитываем в команде новые привычки, но хочу обратить внимание, что нам очень повезло, что все
  
  Ответить
Сергей Черномырдин 08.01.2025 23:47

ПАО Магнит

Руководитель

Добрый вечер! Использование нескольких инструментов для интеграции может повысить гибкость, но требует четкого понимания их ролей, области эффективного использования. Почему в вашем проекте для задач интеграции используются и Data Ocean Flex Loader, и Streaming Data Integration (SDI)? Какие задачи решает каждый из них?

Ответить
- Павел Шорохов 08.01.2025 23:52
  
  Магнит
  
  Директор департамента по работе с данными
  
  Добрый вечер! Для Озера приоритетным способом интеграции является CDC, таким образом мы не теряем изменений в ИС и можем восстановить её состояние на любой момент времени после интеграции. Для CDC интеграций мы используем связку Debezium + Kafka, с которой хорошо работает инструмент для стриминга - SDI. Но не каждая ИС готова не своей стороне к дополнительной нагрузке, к администрированию конфигурации CDC и обеспечению статичности структуры БД. Также стриминговый инструмент (SDI) хорошо работает с потоковыми интеграциями через Kafka, когда ИС готова сама отправлять транзакции или изменения в ИС.Flex Loader используем для батчовых интеграций, если в ИС нет возможности выделить изменения или они происходят очень редко и стриминг просто не нужен.
  
  Ответить

Заказчик

Магнит
ИТ-поставщик

Glowbyte, Data Sapience