Переход ДИТ Москвы на продукты управления данными российского вендора Arenadata
- Заказчик:
- Департамент информационных технологий города Москвы
- Руководитель проекта со стороны заказчика
- Поставщик
- Arenadata
- Год завершения проекта
- 2023
- Сроки выполнения проекта
- Июнь, 2022 - Август, 2023
- Масштаб проекта
- 2000 человеко-часов
- Цели
- Перенос хранилища данных и ETL-процессов на отечественный дистрибутив управления данными;
- Обеспечение производительности и стоимости обработки данных не ниже, чем на предыдущем дистрибутиве;
- Рефакторинг устаревших процессов.
- Результаты
На текущий момент реализована первая часть проекта: осуществлён перенос более 500 ETL-процессов и построено новое хранилище данных. Кропотливость задачи заключалась в том, что специалистам было необходимо убедиться, что все процессы работают одинаково или как минимум не хуже.
В ходе проекта команде ДИТ Москвы удалось:
· более чем в 1,5 раза снизить стоимость поддержки проекта;
· на 10% увеличить производительность хранилища (ETL-процессы на новом хранилище занимают меньше времени, чем на старом);
· реализовать полный цикл поддержки разработок без консультации специалистов Vertica;
повысить
информационную безопасность данных за счёт замены устаревшей не поддерживаемой
системы авторизации на более безопасное решение ADPS (Arenadata Platform
Security)
Уникальность проекта
Миграция хранилища данных Департамента информационных технологий города Москвы (ДИТ Москвы) с решения зарубежного вендора на продукты Arenadata — один из крупнейших проектов такого рода в Москве. В его рамках при активном участии вендора команда ДИТ Москвы без последствий для огромного количества пользователей смогла перенести ETL-процессы, а также добиться некоторых улучшений в работе хранилища. В частности, была перенесена часть холодных данных для оптимального хранения с приемлемой производительностью.- Проект решает задачи импортозамещения
- Да
- Использованное ПО
Arenadata DB (ADB) — аналитическая, распределённая СУБД, построенная на MPP-системе с открытым исходным кодом Greenplum.
Arenadata Hadoop (ADH) — полноценный дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.
Arenadata Platform Security (ADPS) — компонент для обеспечения централизованного управления политиками безопасности кластера.
- Сложность реализации
Основная сложность проекта заключалась в необходимости перенести большое количество кода ETL-процессов, написанного под компоненты дистрибутива иностранного вендора. В процессе переноса код адаптировался под новые версии компонентов.
В процессе миграции ДИТ Москвы находился на постоянной связи со специалистами Arenadata. На начальном этапе проекта заказчик прошёл обучение на вендорских курсах по продуктам Arenadata DB, Arenadata Hadoop, а также активно обращался за консультациями в отдел консалтинга Arenadata. При этом поставщик продемонстрировал, что способен в разумные сроки вносить доработки в функциональность продукта под требования ключевых заказчиков.
При обнаружении проблем, возникающих, в частности, в результате конфликта версий, компонентов библиотек, команда заказчика обращалась в техподдержку Arenadata. В результате этих обращений был сформирован ряд задач на доработку ПО, из которых примерно 2/3 пошли в работу и 1/3 уже реализованы.
- Описание проекта
ДИТ Москвы в июне 2022 года начал крупномасштабный проект по миграции данных и процессов с дистрибутива Cloudera Data Platform на продукты отечественного вендора Arenadata.
Особенности прежнего хранилища данных
На решении зарубежного вендора в течение 2020 года было построено хранилище данных, размер которого составил порядка 100 ТБ. Хранилище основано на архитектуре Data Vault и состоит из нескольких слоёв хранения, а также более 400 процессов очистки и преобразования данных. Оно агрегировало данные из более чем 70 систем-источников, среди которых как внешние федеральные (например, информационные системы, ЗАГС, ФНС, Росреестр), внутренние московские (в числе которых официальный сайт мэра Москвы mos.ru, Единая транспортная платформа, Единый личный кабинет и другие), а также данные из открытых источников. Одной из основных функций хранилища является сбор данных из различных источников, их очистка и приведение к стандартному формату с дальнейшей сборкой в единые сущности по сложному алгоритму сопоставления. Для поддержания актуальности данных выстроены процессы их объединения (ведётся каталог данных) и управления качеством, которые позволяют выявлять ошибки в данных и устранять их на ранних этапах обработки. Данные хранилища используются для подготовки аналитических материалов в интересах Правительства Москвы при принятии управленческих решений (например, отчёты использовались для анализа эффективности принимаемых мер в рамках борьбы с эпидемией COVID-19), а также информационными системами, предоставляющими услуги и сервисы бизнесу и населению столицы. Таким образом, счёт пользователей хранилища может идти на миллионы.
Предпосылки проекта по миграции
В 2022 году команда ДИТ Москвы приступила к реализации проекта по миграции хранилища данных с дистрибутива Cloudera Data Platform на продукты российского вендора.
Начало ему положили следующие предпосылки:
· требования ИБ и законодательства по использованию отечественных программных решений;
· необходимость технической поддержки;
· необходимость обновления компонентов дистрибутива;
· устранение инцидентов безопасности.
В рамках проекта по миграции на отечественное решение команда ДИТ Москвы хотела обеспечить производительность и стоимость обработки данных не ниже, чем на предыдущей системе. Параллельно с этой задачей планировалось перенести холодное хранилище данных из СУБД Vertica в Hive для оптимального хранения с приемлемой производительностью, а также удалить ненужные процессы.
Выбор отечественного вендора
В рамках пилотного проекта, проходившего с июня по декабрь 2022 года, ДИТ Москвы остановил выбор на российском вендоре Arenadata. Учитывались следующие преимущества:
· крупная компания с перспективами на рынке и ясным вектором развития продуктов;
· наличие внедрений в крупных организациях, включая госсектор;
· возможность предоставления круглосуточной технической поддержки и консалтинговых услуг;
· сертификация продуктов во ФСТЭК.
Пилотный проект миграции проводится в два этапа. На первом были перенесены холодные данные на Arenadata Hadoop (ADH) — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования. На втором этапе будет проводиться перенос горячих данных из СУБД Vertica на Arenadata DB — аналитическую, распределённую СУБД, построенную на MPP-системе с открытым исходным кодом Greenplum.
- География проекта
- Москва