Внедрение единого корпоративного хранилища данных

Заказчик
ООО «ММК-Информсервис»
Руководитель проекта со стороны заказчика
ИТ-поставщик
RockITSoft
Год завершения проекта
2022
Сроки выполнения проекта
Сентябрь, 2019 - Июнь, 2022
Масштаб проекта
15000 человеко-часов
Цели

Требовалось создать хранилище данных, позволяющее достичь следующих целей:

  • Обеспечение единой точки доступа к данным, создание единого места для подключения BI-аналитики;

  • Расширение возможностей анализа данных, создание единого хранилища данных;

  • Снижение вычислительной нагрузки на серверах-источниках;

  • Сокращение времени на интеграцию и получение данных для дальнейшего анализа.


Уникальность проекта

КХД развернуто на базе импортозамещенного решения Arenadata.

Создана единая точка доступа к данным на базе горизонтально масштабируемых инструментов загрузки, обработки и хранения данных компании Arenadata (ADS, ADB, ADH).

Создан автоматизированный инструмент (ELT-Framework) на базе Arenadata, позволяющий производить настройки по загрузке данных в интуитивно понятном интерфейсе без разработки и реализовать большинство сценариев, доступных для аналитического хранилища Greenplum.

Автоматизирован процесс загрузки данных в детальный слой (спроектирован по методологии Data Vault 2.0).

Разработан реестр показателей производственных данных и контроля их качества, позволяющий классифицировать показатели и обеспечить их привязку к конкретным подразделениям.

Создан модуль расчетов по формулам в интерфейсе на базе компонента Spark Streaming. Сотрудники могут вносить любые формулы расчетов, на основе которых система рассчитывает нужные показатели в режиме, близком к реальному времени.
Проект решает задачи импортозамещения
Да
Использованное ПО

  • Arenadata DB (ADB) — российская аналитическая распределённая массивно-параллельная СУБД, построенная на базе проекта с открытым исходным кодом Greenplum. Оптимально подходит для аналитической работы с неограниченным объёмом данных, построения больших, надёжных и масштабируемых хранилищ. Замещает программные продукты западных вендоров Teradata, Oracle, Vertica, SAP, IBM и др.;


  • Arenadata Hadoop (ADH) — готовый к использованию российский дистрибутив комплекса сервисов с открытым исходным кодом экосистемы Apache Hadoop с предустановленным оркестратором ИТ-ландшафта. Предназначен для работы с любыми типами и форматами данных и включает все необходимые для работы компоненты: управление, доступ, анализ, интеграция, безопасность и администрирование. Оптимален для работы с неструктурированными или слабоструктурированными данными. Замещает программные продукты западных вендоров Cloudera&Hortonworks, Oracle, MapR, MongoDB и др.;


  • Arenadata Streaming (ADS) — российская масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для использования в крупных организациях на базе проектов с открытым исходным кодом Apache Kafka и Apache NiFi. Предназначена для безостановочного отказоустойчивого обмена данными в высоконагруженных системах организации. Замещает программные продукты западных вендоров IBM, Microsoft, SAP, TIBCO, Cloudera и др.


Сложность реализации

В рамках проектах одной из сложностей была адаптация ELT-фреймворка к сбору изменений в системах источников. В рамках решения данной проблемы были проработаны новые паттерны загрузки данных (в том числе методы извлечения из источника и методы обновления в КХД). Это позволило без доработки систем источников решить проблему актуализации данных в КХД при удалении и изменении данных на стороне системы источника.


В части решения задач аналитики потоковых данных (данных с датчиков оборудования) была сложность в реализации быстрой доступности данных для аналитики в Greenplum (Arenadata DB) в связи с невозможностью построчной вставки потоковых данных и расчетов. Экспертами RockITSoft были реализованы механизмы формирования буфера данных для оперативной вставки данных в Greenplum.


Описание проекта

Эксперты офиса управления данными «ММК-Информсервис» совместно со специалистами RockITSoft проработали сценарии работы с данными, спроектировали целевую архитектуру и хранилище данных, выбрали импортозамещенные компоненты. Этап проработки архитектуры проходил совместно с командой вендора Arenadata. По результатам этапа специалисты Arenadata предоставили свое экспертное заключение об архитектуре.

На базе текущего решения работают информационные системы/сервисы:

  • Корпоративный аналитический портал. Единый источник достоверной, наглядно визуализированной аналитической информации, своевременной и достаточной для эффективного управления всеми сферами деятельности группы ПАО «ММК»;
  • Интегрированная система оптимального планирования и управления агло-коксо-доменным производством «Оптимальный чугун»;
  • Модернизация системы-советчика мастеру доменной печи №9 на основе дополнительных источников данных (данные экспресс-лаборатории химического состава чугуна и шлака; данные с IIoT-датчиков температуры корпуса печи; датчиков расхода и температуры охлаждающей воды и природного газа по фурмам; результатов расчетов по математическим моделям газодинамического и теплового режима доменной плавки и т.д.)
  • «Отсортировка ККЦ» — оценка влияния параметров технологии выплавки стали в ККЦ на выход годной продукции ЛПЦ-11;
  • АИС «Грань». Математическая модель для оценки возможности снижения количества слябов ККЦ и ЭСПЦ, направляемых на зачистку газокислородными резаками.

Система помогает управлять процессами сбора, хранения, контроля качества данных и предоставления данных из хранилища для анализа данных и разработки ML-моделей — систем продвинутой аналитики, выполняемый группой математического моделирования.

В рамках проекта для заказчика был разработан ELT-Framework, который позволяет существенно снизить длительность этапа загрузки данных в хранилище и исключить возможность ошибок при внесении таблиц. Стандартная практика загрузки данных инженером-разработчиком предполагает ручную кодогенерацию для настройки источника, загрузки данных в «сырой» и детальный слой с необходимостью контролировать приведение таблиц к одному формату, а также написание отдельных джобов для мэппинга. После внедрения ELT-Framework загрузка данных в хранилище ускорилась и упростилась за счет автоматизации следующих процессов:

  • Настройка нового подключения для забора данных, настройка мэппинга s2t (source-to-target), настройка методов извлечения и методов обновления данных в интерфейсе администратора;

  • Загрузка изменений и слияния данных;

  • Оркестрация процессов расчета аналитических витрин данных.

За счет интуитивно понятного интерфейса функционал по загрузке данных упрощает реализацию прикладных интеграционных сценариев — даже по сравнению с такими инструментами, как Informatica Power Center.

Среди эффектов от внедрения фреймворка следует также выделить:

  • Сокращение времени на настройку загрузки данных;

  • Сокращение затрат на развитие аналитической системы;

  • Упрощение процессов администрирования загрузки данных;

  • Ускорение процесса адаптации нового сотрудника к работе с КХД.

Кроме того, в рамках проекта были внедрены механизмы по работе со вторым фреймворком для потоковых данных, который позволяет:
  • Вести реестр производственных показателей, их свойств и характеристик в пользовательском интерфейсе;

  • Осуществлять расчеты по формулам, введенным в пользовательском интерфейсе, в режиме, близком к реальному времени;

  • Проверять качество потоковых данных (данных с датчиков);

  • Использовать результаты расчетов в аналитических дашбордах.

КХД и реализованные модули позволяют сократить сроки реализации цифровых двойников, систем-советчиков, предиктивных моделей и аналитики на производственной площадке.


География проекта
г. Магнитогорск
Коментарии: 2

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Максим Часовиков
    Рейтинг: 4767
    РАНХиГС
    Директор Проектов проектного офиса ректора
    05.01.2023 13:25

    Добрый день!
    ВЫ пишите: АИС «Грань». Математическая модель для оценки возможности снижения количества слябов ККЦ и ЭСПЦ, направляемых на зачистку газокислородными резаками.
    Как эта модель была создана, какие методы использует, как осуществляет прогноз?

  • Александр Виноградов
    Рейтинг: 1045
    НАНОЛЕК
    CIO
    09.01.2023 10:32

    Добрый день. Скажите с помощью чего вы визуализируете данные их хранилища?

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.