Техническая миграция с Oracle в облако VK
- Заказчик:
- «Комус»
- Руководитель проекта со стороны заказчика
- Поставщик
- Arenadata
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- Сентябрь, 2022 - Март, 2023
- Масштаб проекта
- 1200 человеко-часов
- Цели
- Модернизация корпоративного хранилища данных;
- увеличение глубины хранения истории по веб-аналитике;
- сокращение стоимости хранения в ХД;
- ускорение работы отчётов по веб-аналитике (опционально);
- перенос логики процедур загрузки без рефакторинга;
- обеспечение сходимости данных в новой и старой системах.
В результате проекта «Комус» получила новые возможности для развития продвинутой веб-аналитики в АХД на базе Arenadata DB. Витрины этого хранилища также предоставляют данные для команды аналитиков (80 дата-специалистов), использующих Jupyterhub.
За счёт сжатия и поколоночного хранения в Arenadata DB удалось достичь существенной экономии в объёме хранилища: вместо 9 ТБ, хранившихся ранее в Oracle, теперь 1,5 ТБ.
Медианное значение ускорения работы отчётов составило пять раз, по тяжёлым отчётам удалось добиться ускорения на несколько порядков выше.
Наибольший вклад в стоимость старого решения вносили лицензионные платежи за функционал Oracle и регулярное наращивание количества жёстких дисков для хранилища на базе IBM, а Arenadata DB выходит на 20% дешевле в перспективе нескольких лет.
Уникальность проекта
Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин.- Использованное ПО
- Arenadata DB (ADB) — аналитическая, распределённая СУБД, построенная на MPP-системе с открытым исходным кодом Greenplum.
- Сложность реализации
- В качестве ТЗ использовался Oracle-скрипт. Команда «Комуса» знала, что если придётся изменять логику загрузки, то итоговые витрины могут оказаться разными, а этого нельзя было допустить;
- повышенное количество операций, требующих эксклюзивного доступа, приводит к необходимости наличия технологических окон, когда база не доступна для запросов;
- Partition Elimination не работает в классической схеме «Таблица фактов — календарь»;
- не смогли добиться полной утилизации канала при загрузке данных по PXF в один поток.
- Описание проекта
Предпосылки миграции
О модернизации корпоративного хранилища данных «Комус» задумалась в 2020 году в связи с нарастающими проблемами с веб-аналитикой. На тот момент в компании работало хранилище SAP, а для веб-аналитики использовалось достаточно простое решение: содержимое виртуального журнала ClickStream.
С течением времени объём базы веб-аналитики превысил 9 ТБ, и это решение совсем перестало устраивать «Комус», поскольку в планах у ритейлера было дальнейшее активное развитие аналитического функционала в сторону продвинутой аналитики.
Переход в облако
К тому времени, как удалось получить бюджет на модернизацию, начались проблемы с поставками ИТ-оборудования, и тогда «Комус» взяла за основу облачный вариант Arenadata DB в VK Cloud. Миграцию требовалось провести очень быстро, поэтому выбрали вариант технической миграции, то есть не стали пересматривать тот подход к веб-аналитике, который был реализован в решении Oracle. В базе Oracle было создано около 100 таблиц для веб-аналитики, а над ней уже работает аналитическая система Tableau. Нужно было перенести всё в Arenadata DB таким образом, чтобы восемь юниверсов (логических наборов измерений и объектов, предназначенных для аналитической обработки) Tableau были основаны на данных из Arenadata DB. Приёмка завершённого проекта заключалась в сверке готовых витрин. Проект, который выполнила компания Sapiens Solutions, начался в сентябре 2022 года и был завершён в марте 2023-го.
Пока в ИТ-ландшафте компании остаётся три хранилища данных: SAP BW (комплексная система бизнес-аналитики на платформе SAP), старое хранилище на базе Oracle, которое используется для стандартизованной корпоративной отчётности, и аналитическое хранилище данных (АХД) на базе Arenadata DB. Успешной реализации проекта помогло использование ETL-фреймворка, который состоял из таблиц метаданных и автоматизированных функций, упрощающих загрузку данных: через описание метаданных и одну функцию f_load_simple удалось реализовать до 60 % загрузок данных. Со всеми процедурами справилась за четыре месяца команда численностью шесть-семь человек. В рамках проекта было произведено 800 тестов сравнения данных.
- География проекта
Москва