Построение Data Lake на металлургическом комбинате

Заказчик
НЛМК (Новолипецкий металлургический комбинат)
Руководитель проекта со стороны заказчика
ИТ-поставщик
Инфосистемы Джет
Сроки выполнения проекта
Август, 2018 - Август, 2019
Масштаб проекта
7840 человеко-часов
20 автоматизированных рабочих мест
Цели

– Создание удобного инструмента для вычислений и анализа, в том числе для последующей работы с получаемыми данными под разрабатываемые модели машинного обучения (ML)

– Разработка цифровых сервисов и моделей машинного обучения

– Оптимизация производственных процессов

– Снижение себестоимости готовой продукции

Уникальность проекта

Цифровизация производства(технологии Data Lake и Machine Learning) экономит в сфере металлургии до 300 млн. рублей в год за счет выявления дефектного сырья и оптимизации расхода дорогостоящих ферросплавов. Можно предотвращать до 40% брака и экономить до 10% на обслуживании благодаря мониторингу износа оборудования. Производство металлов – очень длинная цепочка получения готового продукта,и на каждом участке появляется новая добавленная стоимость. За счет большого количества участков,оптимизируя даже 3-5% процессов на каждом этапе, мы получаем ощутимую выгоду. Производственные данные серьезно отличаются от финансовых – если в банковском DWH около 1000 атрибутов состояния, то в доменном цеху с пятью печами и 25000 датчиков – не предел. Это мешает применять классические реляционные БД, не рассчитанные на широкие наборы данных. Система анализа данных и моделирования (САДиМ) позволила отслеживать всю цепочку и строить точные ML-модели, оптимизируя техн.процессы на основе цифровых двойников.
Использованное ПО
Решение реализовано на базе отечественного дистрибутива распределенной платформы хранения Arenadata Hadoop.
Для решения задач сбора, передачи, трансформации и накопления данных были использованы сервисы Apache Kafka, Apache NiFi и Apache Hive.
Сложность реалиазации
В проект были вовлечены несколько подрядчиков и разные подразделения Заказчика — качество их коммуникации было важнейшим фактором успеха. Кроме того, в ходе проекта постоянно дорабатывалась системная платформа и изменялись входные объемы информации, что требовало нетривиальных технологических решений.
Описание проекта
Компания НЛМК определила стратегию, затем специалисты ИТ-компании «Инфосистемы Джет» разработали и реализовали техническое решение на платформе Arenadata Hadoop. Внедренная платформа САДиМ класса решений Data Lake собирает данные, предоставляя информацию о производственных и технологических процессах моделям машинного обучения.
Специалисты «Инфосистемы Джет» настроили регулярную выгрузку данных в «озеро данных» из 70 источников (датчиков, а также MES и АСУ ТП), а также загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Емкость построенного «озера данных» составляет 300 терабайт.
В рамках проекта команда «Инфосистемы Джет» разработала для НЛМК модель унифицированной витрины данных, реализовала управление мета-данными средствами Apache Atlas (тэгирование, поиск и т.д.) и настроила централизованную ролевую модель, интегрировав ее со службой каталогов Active Directory. Это дало возможность дата-саентистам максимально оперативно получать в Data Lake доступ к нужным им данным.
Для контроля работы Data Lake настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также автоматизирован контроль целостности и полноты данных. Для особо важных и уязвимых данных создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.
География проекта

В основном работы выполнялись в Москве, также были выезды и на завод в Липецк.

Коментарии: 2
  • Алексей Коршунов
    Рейтинг: 161
    ПАО ГМК "Норильский Никель"
    Архитектор производственных систем
    12.12.2019 11:48

    Добрый день! А по каким принципам отбирали параметры для загрузки в озеро? или загрузили все до чего смогли дотянуться?

  • Алексей Степанов
    Рейтинг: 272
    ООО "Челны-Лифт"
    Начальник отдела Информационных Технологий
    25.12.2019 08:55

    "25000 датчиков" - что они из себя представляют?

Предметная область
Отрасль
Управление