Построение Data Lake на металлургическом комбинате

Заказчик:

НЛМК (Новолипецкий металлургический комбинат)

Поставщик

Инфосистемы Джет

Год завершения проекта

2019

Сроки выполнения проекта

Август, 2018 - Август, 2019

Масштаб проекта

7840 человеко-часов
20 автоматизированных рабочих мест

Цели

– Создание удобного инструмента для вычислений и анализа, в том числе для последующей работы с получаемыми данными под разрабатываемые модели машинного обучения (ML)

– Разработка цифровых сервисов и моделей машинного обучения

– Оптимизация производственных процессов

– Снижение себестоимости готовой продукции

Уникальность проекта

Цифровизация производства(технологии Data Lake и Machine Learning) экономит в сфере металлургии до 300 млн. рублей в год за счет выявления дефектного сырья и оптимизации расхода дорогостоящих ферросплавов. Можно предотвращать до 40% брака и экономить до 10% на обслуживании благодаря мониторингу износа оборудования. Производство металлов – очень длинная цепочка получения готового продукта,и на каждом участке появляется новая добавленная стоимость. За счет большого количества участков,оптимизируя даже 3-5% процессов на каждом этапе, мы получаем ощутимую выгоду. Производственные данные серьезно отличаются от финансовых – если в банковском DWH около 1000 атрибутов состояния, то в доменном цеху с пятью печами и 25000 датчиков – не предел. Это мешает применять классические реляционные БД, не рассчитанные на широкие наборы данных. Система анализа данных и моделирования (САДиМ) позволила отслеживать всю цепочку и строить точные ML-модели, оптимизируя техн.процессы на основе цифровых двойников.

Использованное ПО: Решение реализовано на базе отечественного дистрибутива распределенной платформы хранения Arenadata Hadoop.
Для решения задач сбора, передачи, трансформации и накопления данных были использованы сервисы Apache Kafka, Apache NiFi и Apache Hive.
Сложность реализации: В проект были вовлечены несколько подрядчиков и разные подразделения Заказчика — качество их коммуникации было важнейшим фактором успеха. Кроме того, в ходе проекта постоянно дорабатывалась системная платформа и изменялись входные объемы информации, что требовало нетривиальных технологических решений.
Описание проекта: Компания НЛМК определила стратегию, затем специалисты ИТ-компании «Инфосистемы Джет» разработали и реализовали техническое решение на платформе Arenadata Hadoop. Внедренная платформа САДиМ класса решений Data Lake собирает данные, предоставляя информацию о производственных и технологических процессах моделям машинного обучения.
Специалисты «Инфосистемы Джет» настроили регулярную выгрузку данных в «озеро данных» из 70 источников (датчиков, а также MES и АСУ ТП), а также загрузили исторические данные за последние несколько лет работы предприятия и разработали карты данных технологических и производственных процессов отдельных цехов. Емкость построенного «озера данных» составляет 300 терабайт.
В рамках проекта команда «Инфосистемы Джет» разработала для НЛМК модель унифицированной витрины данных, реализовала управление мета-данными средствами Apache Atlas (тэгирование, поиск и т.д.) и настроила централизованную ролевую модель, интегрировав ее со службой каталогов Active Directory. Это дало возможность дата-саентистам максимально оперативно получать в Data Lake доступ к нужным им данным.
Для контроля работы Data Lake настроен комплексный мониторинг состояния сервисов системы в Zabbix, а также автоматизирован контроль целостности и полноты данных. Для особо важных и уязвимых данных создана возможность резервного копирования: то есть, в случае непреднамеренного уничтожения данных пользователем их можно будет восстановить.
География проекта: В основном работы выполнялись в Москве, также были выезды и на завод в Липецк.