Техническая миграция с Oracle в облако VK
- Заказчик:
- «Комус»
- Руководитель проекта со стороны заказчика
- Поставщик
- Arenadata
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- Сентябрь, 2022 - Март, 2023
- Масштаб проекта
- 1200 человеко-часов
- Цели
- Модернизация корпоративного хранилища данных;
- увеличение глубины хранения истории по веб-аналитике;
- сокращение стоимости хранения в ХД;
- ускорение работы отчётов по веб-аналитике (опционально);
- перенос логики процедур загрузки без рефакторинга;
- обеспечение сходимости данных в новой и старой системах.
- Результаты
В результате проекта «Комус» получила новые возможности для развития продвинутой веб-аналитики в АХД на базе Arenadata DB. Витрины этого хранилища также предоставляют данные для команды аналитиков (80 дата-специалистов), использующих Jupyterhub.
За счёт сжатия и поколоночного хранения в Arenadata DB удалось достичь существенной экономии в объёме хранилища: вместо 9 ТБ, хранившихся ранее в Oracle, теперь 1,5 ТБ.
Медианное значение ускорения работы отчётов составило пять раз, по тяжёлым отчётам удалось добиться ускорения на несколько порядков выше.
Уникальность проекта
Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин.- Проект решает задачи импортозамещения
- Да
- Использованное ПО
- Arenadata DB (ADB) — аналитическая, распределённая СУБД, построенная на MPP-системе с открытым исходным кодом Greenplum.
- Сложность реализации
- В качестве ТЗ использовался Oracle-скрипт. Команда «Комуса» знала, что если придётся изменять логику загрузки, то итоговые витрины могут оказаться разными, а этого нельзя было допустить;
- повышенное количество операций, требующих эксклюзивного доступа, приводит к необходимости наличия технологических окон, когда база не доступна для запросов;
- Partition Elimination не работает в классической схеме «Таблица фактов — календарь»;
- не смогли добиться полной утилизации канала при загрузке данных по PXF в один поток.
- Описание проекта
Предпосылки миграции
О модернизации корпоративного хранилища данных «Комус» задумалась в 2020 году в связи с нарастающими проблемами с веб-аналитикой. На тот момент в компании работало хранилище SAP, а для веб-аналитики использовалось достаточно простое решение: содержимое виртуального журнала ClickStream.
С течением времени объём базы веб-аналитики превысил 9 ТБ, и это решение совсем перестало устраивать «Комус», поскольку в планах у ритейлера было дальнейшее активное развитие аналитического функционала в сторону продвинутой аналитики.
Переход в облако
К тому времени, как удалось получить бюджет на модернизацию, начались проблемы с поставками ИТ-оборудования, и тогда «Комус» взяла за основу облачный вариант Arenadata DB в VK Cloud. Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин. Проект, который выполнила компания Sapiens Solutions, начался в сентябре 2022 года и был завершён в марте 2023-го.
Пока в ИТ-ландшафте компании остаётся три хранилища данных: SAP BW (комплексная система бизнес-аналитики на платформе SAP), старое хранилище на базе Oracle, которое используется для стандартизованной корпоративной отчётности, и аналитическое хранилище данных (АХД) на базе Arenadata DB. Успешной реализации проекта помогло использование ETL-фреймворка, который состоял из таблиц метаданных и автоматизированных функций, упрощающих загрузку данных: через описание метаданных и одну функцию f_load_simple удалось реализовать до 60 % загрузок данных. Со всеми процедурами справилась за четыре месяца команда численностью шесть-семь человек. В рамках проекта было произведено 800 тестов сравнения данных.
- География проекта
Москва