Платформа Корпоративного хранилища данных ОАО «РЖД». Миграция критически важных бизнес-данных с историей в 20-25 лет
- Заказчик:
- ОАО РЖД
- Руководитель проекта со стороны заказчика
- Поставщик
- ООО "ОЦРВ", ООО "Цифровые сервисы", ГК "КОРУС Консалтинг", Холдинг Т1
- Год завершения проекта
- 2024
- Сроки выполнения проекта
- январь, 2023 — ноябрь, 2024
- Масштаб проекта
- 434720 человеко-часов
- Цели
-
Разработка технологически независимого комплексного решения для работы с большими объемами данных компании ОАО «РЖД» - Корпоративного хранилища данных (КХД РЖД);
-
Миграция критических данных с историей 20-25 лет с SAS и MF на отечественную платформу;
-
Унификация процесса подготовки данных за счет использования в работе проектных команд единого методологического подхода;
-
Обеспечение интеграции данных из множества источников различного типа;
-
Оптимизация процессов поставки, расчетов, предоставления и управления данными: создание экосистемы для решения задач из области аналитики, машинного обучения;
-
Обеспечение возможности горизонтального и вертикального масштабирования платформы, позволяя компании адаптировать ресурсы, добавлять новые сервисы и функциональные модули;
-
Формирование возможностей для создания корпоративного рынка данных, который позволит эффективно использовать и монетизировать данные как актив.
-
- Результаты
-
Разработана и внедрена единая импортонезависимая платформа - Корпоративное хранилище данных ОАО «РЖД»;
-
Реализована доменная структура хранения данных, полностью охватывающая ключевые бизнес-процессы РЖД в количестве 27 бизнес-доменов. Доменная структура реализована по концепции data mesh;
-
Реализована область для хранения архивных данных 20-25-летней истории (1,5Пб);
-
Успешно проведена миграция следующих объектов:
57 систем-источников (домены-источники);
30 систем-потребителей (домены-потребители);
620 справочников, участвующих в формировании показателей.
-
Разработаны аналитические домены для решения задач продвинутой и предиктивной аналитики.
Экономические эффекты:
-
Экономия на реализации интеграционного взаимодействия с системами-источниками на базе КХД за счет переиспользования исходных данных источников доменами-потребителями;
-
Экономия времени на внедрение BI;
-
Экономия на найме и содержании персонала для ручного сбора критической статистической отчетности.
-
Экономия затрат на ведение методологии.
-
Уникальность проекта
-
Универсальная платформа, собственная разработка Холдинга «РЖД»: КХД РЖД реализована в соответствии с требованиями ОАО «РЖД», способна обрабатывать любые объемы и виды данных, независимо от их сложности. Она объединяет лучшие практики хранилищ и озёр данных, позволяет эффективно управлять как структурированными, так и неструктурированными данными. Платформа поддерживает разработку ETL-процессов, управление данными и их подготовку для BI-аналитики, машинного обучения, скрывая сложность работы с разнородным технологическим стеком.
-
Синергия команд: Архитектура платформы и базовый функционал позволяют одновременно работать нескольким командам, переиспользуя дата-продукты без дублирования операций по обработке данных, что позволяет быстро и качественно выполнять задачи миграции.
-
Аудит методологии: За 20-25 лет часть экспертизы по обработке данных была утрачена. Проект включает не только миграцию, но и реинжиниринг с аудитом, актуализацией методологической базы по базы по подготовке данных.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
-
Корпоративное хранилище данных ОАО «РЖД» реализовано на базе отечественной Платформы корпоративного распределенного хранилища больших данных (КХД) и собственной разработки дополнительных модулей.
-
Платформа КХД РЖД синхронизирована с инструментами по управлению и анализу данных (КС УАД): Глоссарий бизнес-терминов и Репозиторий форм и аналитических справок, которые реализованы на базе ПО, зарегистрированных в Реестре российского программного обеспечения. В Глоссарии бизнес-терминов пользователи получают единую согласованную бизнес-терминологию, правила формирования показателей и информацию о владельцах данных. Репозиторий форм отчётности и аналитических справок содержит нормативную базу по показателям.
-
- Сложность реализации
-
Большие объёмы данных. Работа проводится с данными, собранными за два десятилетия, объемы которых достигают петабайтов.
-
Одновременная работа команд. В проекте задействовано более 10 команд (~300чел), каждая из которых отвечает за свою область, при этом есть зависимость от результатов работ других команд, что требует регулярной синхронизации между участниками.
-
Проектирование, разработка, описание методологии, тестирование, промышленная эксплуатация осуществляется непрерывно.
-
Большое количество интеграций. Целевое количество - 124 СИ, большая часть из которых так же находится в стадии импортозамещения, что требует дополнительной синхронизации со сроками проекта.
-
Выстраивание взаимодействия с существующей НСИ и разнообразие справочников. Разные системы могут использовать различные справочники, что требует создания единой модели данных для их унификации, а также обеспечения актуальности и согласованности справочных данных между системами-источниками и системами-потребителями.
-
- Описание проекта
С начала 2000-х годов в ОАО «РЖД» велась разработка проекта «Корпоративное информационное хранилище» (КИХ) на базе проприетарного решения SAS. КИХ стал ключевым инструментом для формирования ежесуточной и ежемесячной отраслевой статистической отчетности, подготовки информационно-аналитических материалов и интеграции отчетных данных с другими системами, включая решения на платформе SAP.
Уход вендора SAS из России и приостановка технической поддержки создали необходимость перехода на импортонезависимую платформу. Критичность перехода обусловлена вероятностью наступления общих негативных эффектов, таких как:
-
Необходимость готовить отчетность в ручном виде, что приведёт к взрывному росту трудозатрат более чем 40 000 сотрудников РЖД;
-
Принятие ошибочных, несвоевременных и/или неоптимальных управленческих решений в условиях недостатка необходимой информации;
-
Невозможность обеспечения данными более 40 информационных систем РЖД, которые на регулярной основе получают данные из КИХ.
Для перехода выбрана отечественная платформа Корпоративное хранилище данных (КХД РЖД), реализованная на базе Корпоративного распределенного хранилища больших данных (КХД). Миграция КИХ на КХД стала основой для создания единой системы корпоративной отчетности, способствующей унификации и формализации алгоритмов формирования отраслевых показателей. КХД обеспечивает не только сохранение функциональности хранилища КИХ, но и позволяет осуществлять доработки платформы под требования ОАО «РЖД», что является стратегически важным для дальнейшего развития компании.
Целевое количество пользователей более 40 000 сотрудников ОАО «РЖД», работающих в центральном аппарате, на региональных дорогах и в дочерних зависимых обществах.
-
- География проекта
Центральный аппарат, Департаменты (управления), филиалы, структурные подразделения ОАО «РЖД», включая дороги от Дальнего Востока до Калининграда, Дочерние зависимые общества.
- Дополнительные презентации:
- КХД РЖД GlobalCIO 2024.pdf