-
164
Заявлено проектов
-
52
Опубликовано проектов
-
7
Дней до завершения приема заявок
Внедрение корпоративного Озера данных
-
Руководитель проекта со стороны заказчика
-
Цели
Импортозамещение и демократизация данных в компании путём предоставления доступа к сырым данным, подготовка почвы к миграции текущей платформы данных:
-
Повысить доступность данных в компании
-
Сократить time2market предоставления данных для задач аналитики и прототипирования
-
Предоставить потребителям описание сырых данных, ускорить поиск нужных данных в платформе
-
Организовать прозрачный и контролируемый процесс использования данных для поставщиков данных
-
Сократить стоимость хранения данных в платформе
-
Сократить количество сетевых связей в контуре компании и, как следствие, затраты на интеграции и поддержку
-
Обеспечить доступность необходимых данных для миграции текущей платформы данных
Развернутый перечень основных задач большого проекта, которые мы поставили перед собой (от внедрения инструментов до подключения ИС и подготовки пользовательских инструкций), а также дополнительных задач, возникших в ходе проекта, попробуем предоставить в комментариях.
-
-
Сроки выполнения
август, 2023 — октябрь, 2024 -
Год завершения проекта
2024
-
Масштаб проекта
34000 человеко-часов -
Результаты
Совместно с интегратором Glowbyte и поставленными им продуктами от вендора Data Sapience все обозначенные задачи MVP были выполнены в полном объеме, а также выполнен ряд новых задач, которые возникли в процессе работ и были включены в MVP.
Получены следующие количественные результаты:
-
Выявили потребность в подключении к Озеру для ~200 ИС
-
Подключили к Озеру 20 ИС
-
Загрузили в Озеро и регулярно обновляем более 200 объектов данных
-
Загрузили более 200 ТБ данных и в части загруженных объектов уже сейчас ежемесячно прирастаем на 10%
-
Кратно сократили time2market предоставления доступа к данным: например, загрузили в Озеро и поставили на регламентное обновление 10 объектов данных из 3ёх ИС, а затем предоставили доступ к этим данным в Озере за 3 дня (витрину на тех же данных в старой платформе пришлось бы ждать в среднем 50 дней)
-
Можем развернуть изолированный контур со всеми инструментами платформы за 1 день
-
-
Уникальность проекта
Проект, реализованный в облаке на open-source технологиях, предоставляет компании ранее отсутствующую функциональность и открывает ряд новых возможностей:
-
Функциональность:
-
предоставление доступа к сырым (но детально описанным) данным из различных информационных систем (ИС) для задач аналитики в одном месте
-
хранение исторических данных ИС
-
сохранение истории изменений данных ИС
-
-
Возможность:
-
Демократизация данных
-
Сначала аналитика/прототипирование, потом отчетность
-
Импортозамещение текущего Хранилища данных
-
Оптимизация числа интеграций в контуре компании
-
Возможность восстановить состояние ИС на любой момент времени после интеграции с Озером (доп уровень резервирования данных)
-
Оптимизация затрат на инфраструктуру с использованием облачной модели pay-as-you-go (можно «охладить» данные ИС в Озере)
-
Возможность быстрого масштабирования инфраструктуры
-
-
Стратегическое значение:
-
Фундамент для миграции текущего КХД
-
Поддержка Data-Driven подхода к принятию решений за счёт демократизации доступа к данным
-
-
-
Использованное ПО
-
Data Ocean Nova – lakehouse-платформа данных нового поколения. Совмещает подход Data Warehouse и возможности масштабирования Data Lake. Позволяет создавать инсталляции в публичном и частном облаке, on-premise, а также при гибридном подходе и масштабировать оперативный слой данных в режиме реального времени. Обеспечивает принцип доменного разделения Data Mesh в едином инфраструктурном подходе
-
Data Ocean Flex Loader – инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3. Позволяет настраивать достоверную загрузку из систем-источников данных без изменений в кратчайшие сроки
-
Data Ocean Cluster Manager – программное обеспечение для администрирования кластеров и анализа запросов. Обеспечивает непрерывное отслеживание состояния инфраструктуры и оперативную реакцию на возможные инциденты
-
Streaming Data Integration (SDI) - инструмент для высокопроизводительной интеграции данных
-
-
Решение из каталога Global CIO
В проекте не используются решения из каталога Global CIO
-
Сложность реализации
В ходе обследования текущих интеграций и всего ландшафта ИТ систем компании мы увидели широкое разнообразие используемых технологий и способов интеграций, которые необходимо было унифицировать для новой платформы.
В ходе проекта неоднократно отклонялись от первоначальных границ проекта:
-
потребность в расширении перечня способов интеграции для импорта данных в Озеро (например, ИС на базе 1С вместо СУБД и файловых шар интегрируются через Kafka REST Proxy)
-
потребность в расширении перечня способов получения данных из Озера (например, для выгрузки большого объема данных во внешнюю ИС)
-
потребность в доработке инструментов, которые заточены на загрузку «чистых» данных
Так как концептуальные изменения платформы данных повлияли на её поставщиков и потребителей возник ряд организационных сложностей:
-
изменить текущие стандарты интеграции и «продать» Озеро данных внутри компании
-
описать и отстоять сценарии использования Озера в контуре компании и не стать корпоративной шиной данных
-
-
Описание
В компании около 10 000 пользователей данных, которые используют многоуровневую платформу, содержащую >1 Пб данных. Примерно 2500 пользователей обращаются напрямую к центральному элементу платформы, корпоративному хранилищу данных, которое развивается уже 13 лет и содержит более 500 Тб данных.
За это время в система стала сверхсложной: в неё интегрировано большое количество систем источников данных, а пользователи обращаются к 5000 витринам данных. Витрины содержат большое количество legacy-кода, далеко не все из них описаны, некоторые витрины дублируют друг друга. Помимо всего прочего реализация новой витрины – это длительный процесс, t2m очень большой. В связи с этим в том числе в платформе появилось большое количество пользовательских «песочниц», их более 80.
В середине 2023 года было принято решение о необходимости импортозамещения и рефакторинга функциональности текущей платформы данных, а также концепции по предоставлению доступа к данным в ней. Большой time2market предоставления данных для аналитики и невозможность работы с сырыми данными разных информационных систем укрепили уверенность в том, что в новой платформе должно появиться Озеро сырых данных. С учётом общего вектора компании на облачные сервисы и оценки преимуществ, которые они предлагают в контексте хранения больших объемов данных (стоимость, модель pay-as-you-go), было принято решение о реализации проекта в облаке.
В процессе изучения разных паттернов для реализации платформы данных в общем и Озера данных в частности (Data Lake vs DWH vs Data Lakehouse) мы поняли, что в чистом виде ни одна из них не отражает наше видение новой архитектуры. Остановились на гибридном подходе, который содержит в себе постулаты из каждого. Фундаментом новой платформы выступает Озеро данных, в котором:
-
реализована версионность в SCD4
-
все данные в формате источника без трансформаций
-
все загружаемые данные описаны
В рамках обследования при подготовке к проекту проанализировали интеграции с текущей платформой данных и определили MVP технологий (Batch, CDC, Kafka), которые необходимо использовать для подключения информационных систем, нужных для её миграции (таких более 60). Информационных систем с ценными сырыми данными в компании гораздо больше (~200), но в такой задаче нужно от чего-то отталкиваться.
Обозначили границы MVP проекта:
-
проработать архитектуру Озера данных в Яндекс.Облаке
-
внедрить инструменты для подключения ИС и доставки данных до Озера
-
разработать инструменты для формирования истории изменения состояния источника по доставленным до Озера данных
-
подключить не менее одной ИС каждого типа и протестировать все заявленные технологии
-
предоставить ИС компании доступ к данным Озера для настройки экспортных потоков
-
-
География проекта
Все бизнес-подразделения федеральной розничной сети Магнит.
-
Заказчик
Магнит
-
ИТ-поставщик
Glowbyte, Data Sapience
Комментировать могут только авторизованные пользователи.
Предлагаем Вам войти в систему или зарегистрироваться.
Павел Шорохов
На уточнении
На уточнении
- Импортозаместить технологии, используемые в текущей корпоративной платформе данных
- Развернуть в облачной среде решение для безопасного и дешевого хранения данных
- Обеспечить возможность быстрого и автоматизированного масштабирования платформы
- Создать стандарт интеграции информационных систем с Озером данных, унифицирующий передачу данных в него как из внутренних, так и из внешних информационных систем
- Развернуть в облачной среде инструменты для загрузки данных из информационных систем в Озеро
- Реализовать и внедрить коннекторы для интеграции с различными типами информационных систем, обеспечив широкий охват источников и типов задач загрузки данных
- Разработать инструментарий на стороне Озера для предоставления возможности восстановления среза данных информационной системы на любой момент времени после интеграции с Озером
- Разработать потоки из информационных систем разных типов разными инструментами/коннекторами
- Автоматизировать взаимодействие разработчиков с инструментами для сокращения t2m и снижения операционных рисков
- Формализовать архитектуру решения и предоставить инструкции для пользователей инструментов, минимизирующие время на погружение для начала их использования
- Подключить более 60 ИС, обеспечить загрузку и обновление данных, необходимых для миграции текущей платформы данных (более 1000 объектов)
Дополнительные задачи, которые возникли в процессе работ над основными:Олег Молчанов
Магнит
Руководитель направления по метаданным и качеству данных
Павел Шорохов
На уточнении
На уточнении
Александр Кулиев
Бургер Кинг
Chief Data Officer (CDO)
Павел Шорохов
На уточнении
На уточнении
Таиса Дасаева
ООО КРАСНОГОРСКИЙ МПК
ИТ директор
Павел Шорохов
На уточнении
На уточнении
Бауржан Касенов
АО НК "КазМунайГаз"
Директор департамента
Павел Шорохов
На уточнении
На уточнении
Дмитрий Власов
Магнит (АО«Тандер»)
Руководитель управления по администрированию данных
Павел Шорохов
На уточнении
На уточнении
Сергей Черномырдин
ПАО Магнит
Руководитель
Павел Шорохов
На уточнении
На уточнении