Переход ДИТ Москвы на продукты управления данными российского вендора Arenadata

Заказчик
Департамент информационных технологий города Москвы
Руководитель проекта со стороны заказчика
ИТ-поставщик
Arenadata
Год завершения проекта
2023
Сроки выполнения проекта
Июнь, 2022 - Август, 2023
Масштаб проекта
2000 человеко-часов
Цели

  • Перенос хранилища данных и ETL-процессов на отечественный дистрибутив управления данными;
  • Обеспечение производительности и стоимости обработки данных не ниже, чем на предыдущем дистрибутиве;
  • Рефакторинг устаревших процессов.

Результаты

На текущий момент реализована первая часть проекта: осуществлён перенос более 500 ETL-процессов и построено новое хранилище данных. Кропотливость задачи заключалась в том, что специалистам было необходимо убедиться, что все процессы работают одинаково или как минимум не хуже.

В ходе проекта команде ДИТ Москвы удалось:

·         более чем в 1,5 раза снизить стоимость поддержки проекта;

·         на 10% увеличить производительность хранилища (ETL-процессы на новом хранилище занимают меньше времени, чем на старом);

·         реализовать полный цикл поддержки разработок без консультации специалистов Vertica;

повысить
информационную безопасность данных за счёт замены устаревшей не поддерживаемой
системы авторизации на более безопасное решение ADPS (Arenadata Platform
Security)

Уникальность проекта

Миграция хранилища данных Департамента информационных технологий города Москвы (ДИТ Москвы) с решения зарубежного вендора на продукты Arenadata — один из крупнейших проектов такого рода в Москве. В его рамках при активном участии вендора команда ДИТ Москвы без последствий для огромного количества пользователей смогла перенести ETL-процессы, а также добиться некоторых улучшений в работе хранилища. В частности, была перенесена часть холодных данных для оптимального хранения с приемлемой производительностью.
Проект решает задачи импортозамещения
Да
Использованное ПО

Arenadata DB (ADB) — аналитическая, распределённая СУБД, построенная на MPP-системе с открытым исходным кодом Greenplum. 

Arenadata Hadoop (ADH) — полноценный дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Arenadata Platform Security (ADPS) — компонент для обеспечения централизованного управления политиками безопасности кластера.

Сложность реализации

Основная сложность проекта заключалась в необходимости перенести большое количество кода ETL-процессов, написанного под компоненты дистрибутива иностранного вендора. В процессе переноса код адаптировался под новые версии компонентов. 

В процессе миграции ДИТ Москвы находился на постоянной связи со специалистами Arenadata. На начальном этапе проекта заказчик прошёл обучение на вендорских курсах по продуктам Arenadata DB, Arenadata Hadoop, а также активно обращался за консультациями в отдел консалтинга Arenadata. При этом поставщик продемонстрировал, что способен в разумные сроки вносить доработки в функциональность продукта под требования ключевых заказчиков.

При обнаружении проблем, возникающих, в частности, в результате конфликта версий, компонентов библиотек, команда заказчика обращалась в техподдержку Arenadata. В результате этих обращений был сформирован ряд задач на доработку ПО, из которых примерно 2/3 пошли в работу и 1/3 уже реализованы.

Описание проекта

ДИТ Москвы в июне 2022 года начал крупномасштабный проект по миграции данных и процессов с дистрибутива Cloudera Data Platform на продукты отечественного вендора Arenadata.

Особенности прежнего хранилища данных

На решении зарубежного вендора в течение 2020 года было построено хранилище данных, размер которого составил порядка 100 ТБ. Хранилище основано на архитектуре Data Vault и состоит из нескольких слоёв хранения, а также более 400 процессов очистки и преобразования данных. Оно агрегировало данные из более чем 70 систем-источников, среди которых как внешние федеральные (например, информационные системы, ЗАГС, ФНС, Росреестр), внутренние московские (в числе которых официальный сайт мэра Москвы mos.ru, Единая транспортная платформа, Единый личный кабинет и другие), а также данные из открытых источников. Одной из основных функций хранилища является сбор данных из различных источников, их очистка и приведение к стандартному формату с дальнейшей сборкой в единые сущности по сложному алгоритму сопоставления. Для поддержания актуальности данных выстроены процессы их объединения (ведётся каталог данных) и управления качеством, которые позволяют выявлять ошибки в данных и устранять их на ранних этапах обработки. Данные хранилища используются для подготовки аналитических материалов в интересах Правительства Москвы при принятии управленческих решений (например, отчёты использовались для анализа эффективности принимаемых мер в рамках борьбы с эпидемией COVID-19), а также информационными системами, предоставляющими услуги и сервисы бизнесу и населению столицы. Таким образом, счёт пользователей хранилища может идти на миллионы.

Предпосылки проекта по миграции

В 2022 году команда ДИТ Москвы приступила к реализации проекта по миграции хранилища данных с дистрибутива Cloudera Data Platform на продукты российского вендора.

Начало ему положили следующие предпосылки:

·         требования ИБ и законодательства по использованию отечественных программных решений;

·         необходимость технической поддержки;

·         необходимость обновления компонентов дистрибутива;

·         устранение инцидентов безопасности.

В рамках проекта по миграции на отечественное решение команда ДИТ Москвы хотела обеспечить производительность и стоимость обработки данных не ниже, чем на предыдущей системе. Параллельно с этой задачей планировалось перенести холодное хранилище данных из СУБД Vertica в Hive для оптимального хранения с приемлемой производительностью, а также удалить ненужные процессы.

Выбор отечественного вендора

В рамках пилотного проекта, проходившего с июня по декабрь 2022 года, ДИТ Москвы остановил выбор на российском вендоре Arenadata. Учитывались следующие преимущества:

·         крупная компания с перспективами на рынке и ясным вектором развития продуктов;

·         наличие внедрений в крупных организациях, включая госсектор;

·         возможность предоставления круглосуточной технической поддержки и консалтинговых услуг;

·         сертификация продуктов во ФСТЭК.

Пилотный проект миграции проводится в два этапа. На первом были перенесены холодные данные на Arenadata Hadoop (ADH) — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования. На втором этапе будет проводиться перенос горячих данных из СУБД Vertica на Arenadata DB — аналитическую, распределённую СУБД, построенную на MPP-системе с открытым исходным кодом Greenplum.

Проект реализуется совместно с компанией «Программный продукт»
География проекта
Москва
Коментарии: 5

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Иван Котляровский
    Рейтинг: 431
    СПАО “Ингосстрах”
    Руководитель направления Управления сопровождения урегулирования
    26.12.2023 12:36

    Александр, добрый день! Поздравляю с успешной реализацией проекта. Подскажите, какие основные трудности возникли при замене Cloudera Data Platform на аналогичные отечественные решения? И столкнулись Вы с проблемой обработки и хранения персональных данных?
    Спасибо.

    • Александр Филатов Иван
      Рейтинг: 70
      Департамент информационных технологий города Москвы
      Начальник управления данными в распределённых вычислительных сетях
      17.01.2024 12:09

      Иван, добрый день. Основной проблемой перехода, наверное, была необходимость рефакторить большое количество кода (более 400 ETL процессов, а также процессы сборки конечных витрин) при переходе на новые версии компонентов, в основном со второй на третью версию Spark. Есть отличия в диалектах SQL в разных СУБД, которые неочевидны, но в итоге влияли на результат выполнения запросов, которые также приходилось адаптировать. Возникало много других технических проблем, которые нельзя назвать критичными, но требовалось время для их решения.
      С проблемой обработки персданных в этом проекте не сталкивались: их (данных) не было.

  • Максим Часовиков
    Рейтинг: 4767
    Центр цифровой экономики МГУ
    Ведущий специалист
    05.01.2024 12:25

    Добрый день, в рамках реализации этого проекта что было наиболее сложным и оценивалась ли удовлетворенность основных заинтересованных сторон после реализации проекта? На сколько она увеличилась, если такая оценка производилась? А проект любопытный

  • Вячеслав Чупраков
    Рейтинг: 1175
    Прагматика Эксперт
    Заместитель ИТ директора по инфраструктуре и сервисам
    06.01.2024 23:24

    Добрый вечер, переход на новую БД потребовал новых специалистов, обучили существующих или поддержку взял на себя интегратор?

    • Александр Филатов Вячеслав
      Рейтинг: 70
      Департамент информационных технологий города Москвы
      Начальник управления данными в распределённых вычислительных сетях
      17.01.2024 12:24

      Добрый день. Мы поддерживаем инфраструктуру собственными силами, поэтому проводили обучение сотрудников работе с новой СУБД. Также, мы работаем в тесном контакте с вендором, который предоставляет консалтинговую и техническую поддержку. Сложные и срочные инциденты решали совместно с их специалистами.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.