Внедрение единого корпоративного хранилища данных
- Заказчик:
- ООО «ММК-Информсервис»
- Руководитель проекта со стороны заказчика
- Поставщик
- RockITSoft
- Год завершения проекта
- 2022
- Сроки выполнения проекта
- Сентябрь, 2019 - Июнь, 2022
- Масштаб проекта
- 15000 человеко-часов
- Цели
Требовалось создать хранилище данных, позволяющее достичь следующих целей:
-
Обеспечение единой точки доступа к данным, создание единого места для подключения BI-аналитики;
-
Расширение возможностей анализа данных, создание единого хранилища данных;
-
Снижение вычислительной нагрузки на серверах-источниках;
-
Сокращение времени на интеграцию и получение данных для дальнейшего анализа.
-
Уникальность проекта
КХД развернуто на базе импортозамещенного решения Arenadata.Создана единая точка доступа к данным на базе горизонтально масштабируемых инструментов загрузки, обработки и хранения данных компании Arenadata (ADS, ADB, ADH).
Создан автоматизированный инструмент (ELT-Framework) на базе Arenadata, позволяющий производить настройки по загрузке данных в интуитивно понятном интерфейсе без разработки и реализовать большинство сценариев, доступных для аналитического хранилища Greenplum.
Автоматизирован процесс загрузки данных в детальный слой (спроектирован по методологии Data Vault 2.0).
Разработан реестр показателей производственных данных и контроля их качества, позволяющий классифицировать показатели и обеспечить их привязку к конкретным подразделениям.
Создан модуль расчетов по формулам в интерфейсе на базе компонента Spark Streaming. Сотрудники могут вносить любые формулы расчетов, на основе которых система рассчитывает нужные показатели в режиме, близком к реальному времени.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
-
Arenadata DB (ADB) — российская аналитическая распределённая массивно-параллельная СУБД, построенная на базе проекта с открытым исходным кодом Greenplum. Оптимально подходит для аналитической работы с неограниченным объёмом данных, построения больших, надёжных и масштабируемых хранилищ. Замещает программные продукты западных вендоров Teradata, Oracle, Vertica, SAP, IBM и др.;
-
Arenadata Hadoop (ADH) — готовый к использованию российский дистрибутив комплекса сервисов с открытым исходным кодом экосистемы Apache Hadoop с предустановленным оркестратором ИТ-ландшафта. Предназначен для работы с любыми типами и форматами данных и включает все необходимые для работы компоненты: управление, доступ, анализ, интеграция, безопасность и администрирование. Оптимален для работы с неструктурированными или слабоструктурированными данными. Замещает программные продукты западных вендоров Cloudera&Hortonworks, Oracle, MapR, MongoDB и др.;
-
Arenadata Streaming (ADS) — российская масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для использования в крупных организациях на базе проектов с открытым исходным кодом Apache Kafka и Apache NiFi. Предназначена для безостановочного отказоустойчивого обмена данными в высоконагруженных системах организации. Замещает программные продукты западных вендоров IBM, Microsoft, SAP, TIBCO, Cloudera и др.
-
- Сложность реализации
В рамках проектах одной из сложностей была адаптация ELT-фреймворка к сбору изменений в системах источников. В рамках решения данной проблемы были проработаны новые паттерны загрузки данных (в том числе методы извлечения из источника и методы обновления в КХД). Это позволило без доработки систем источников решить проблему актуализации данных в КХД при удалении и изменении данных на стороне системы источника.
В части решения задач аналитики потоковых данных (данных с датчиков оборудования) была сложность в реализации быстрой доступности данных для аналитики в Greenplum (Arenadata DB) в связи с невозможностью построчной вставки потоковых данных и расчетов. Экспертами RockITSoft были реализованы механизмы формирования буфера данных для оперативной вставки данных в Greenplum.
- Описание проекта
-
Эксперты офиса управления данными «ММК-Информсервис» совместно со специалистами RockITSoft проработали сценарии работы с данными, спроектировали целевую архитектуру и хранилище данных, выбрали импортозамещенные компоненты. Этап проработки архитектуры проходил совместно с командой вендора Arenadata. По результатам этапа специалисты Arenadata предоставили свое экспертное заключение об архитектуре.
На базе текущего решения работают информационные системы/сервисы:
- Корпоративный аналитический портал. Единый источник достоверной, наглядно визуализированной аналитической информации, своевременной и достаточной для эффективного управления всеми сферами деятельности группы ПАО «ММК»;
- Интегрированная система оптимального планирования и управления агло-коксо-доменным производством «Оптимальный чугун»;
- Модернизация системы-советчика мастеру доменной печи №9 на основе дополнительных источников данных (данные экспресс-лаборатории химического состава чугуна и шлака; данные с IIoT-датчиков температуры корпуса печи; датчиков расхода и температуры охлаждающей воды и природного газа по фурмам; результатов расчетов по математическим моделям газодинамического и теплового режима доменной плавки и т.д.)
- «Отсортировка ККЦ» — оценка влияния параметров технологии выплавки стали в ККЦ на выход годной продукции ЛПЦ-11;
- АИС «Грань». Математическая модель для оценки возможности снижения количества слябов ККЦ и ЭСПЦ, направляемых на зачистку газокислородными резаками.
Система помогает управлять процессами сбора, хранения, контроля качества данных и предоставления данных из хранилища для анализа данных и разработки ML-моделей — систем продвинутой аналитики, выполняемый группой математического моделирования.
В рамках проекта для заказчика был разработан ELT-Framework, который позволяет существенно снизить длительность этапа загрузки данных в хранилище и исключить возможность ошибок при внесении таблиц. Стандартная практика загрузки данных инженером-разработчиком предполагает ручную кодогенерацию для настройки источника, загрузки данных в «сырой» и детальный слой с необходимостью контролировать приведение таблиц к одному формату, а также написание отдельных джобов для мэппинга. После внедрения ELT-Framework загрузка данных в хранилище ускорилась и упростилась за счет автоматизации следующих процессов:
-
Настройка нового подключения для забора данных, настройка мэппинга s2t (source-to-target), настройка методов извлечения и методов обновления данных в интерфейсе администратора;
-
Загрузка изменений и слияния данных;
-
Оркестрация процессов расчета аналитических витрин данных.
За счет интуитивно понятного интерфейса функционал по загрузке данных упрощает реализацию прикладных интеграционных сценариев — даже по сравнению с такими инструментами, как Informatica Power Center.
Среди эффектов от внедрения фреймворка следует также выделить:
-
Сокращение времени на настройку загрузки данных;
-
Сокращение затрат на развитие аналитической системы;
-
Упрощение процессов администрирования загрузки данных;
-
Ускорение процесса адаптации нового сотрудника к работе с КХД.
-
Вести реестр производственных показателей, их свойств и характеристик в пользовательском интерфейсе;
-
Осуществлять расчеты по формулам, введенным в пользовательском интерфейсе, в режиме, близком к реальному времени;
-
Проверять качество потоковых данных (данных с датчиков);
-
Использовать результаты расчетов в аналитических дашбордах.
КХД и реализованные модули позволяют сократить сроки реализации цифровых двойников, систем-советчиков, предиктивных моделей и аналитики на производственной площадке.
- География проекта
- г. Магнитогорск