Хранилища данных: основа для внедрения ИИ в промышленности

28 февраля 2025

Автор: Ольга Тихонова, менеджер практики «Прикладной ИИ» компании Axenix

Основа прибыли любого промышленного предприятия – это в первую очередь бесперебойно работающее оборудование. Стоимость техники крайне высока, ее непредсказуемый выход из строя, пусть даже временный, приводит к простоям и колоссальным потерям выручки. Для контроля и управления оборудованием многие промышленные предприятия уже разрабатывают и внедряют решения на основе ИИ. Но, как показывает практика, производства зачастую не готовы к этим процессам из-за отсутствия данных или их низкого качества. Как изменить ситуацию?

Искуственный интеллект, предиктивная аналитика, цифровые двойники – технологии, которые упоминаются в стратегиях большинства промышленных предприятий. Так, 39% российских компаний с выручкой более 1 млрд рублей уже внедряют технологии ИИ, а 25% планируют это сделать в ближайшее время, показал опрос Ассоциации менеджеров.

Ожидается, что к 2030 году 95% российских организаций будут использовать ИИ.

При этом горизонт планирования в бизнесе сокращается, а вместе с ним и сроки достижения технологических целей: многие ожидают, что уже через три года решения на основе ИИ радикально повысят безопасность на производстве, сократят простои и непроизводственное время, уменьшат количество брака и затраты на обслуживание оборудования.

Однако, начиная реальные проекты цифровой трансформации, промышленные предприятия сталкиваются с проблемой: для внедрения наиболее продвинутых технологий у них нет фундамента. Основа успешной реализации проектов в сфере ИИ – качественная работа с большими данными.

Что не так с данными?

Часто нужных данных просто нет или их невозможно использовать. В отсутствии исторических данных единственный возможный вариант – строить цифровой двойник оборудования или процесса на основе базовой технической документации, известных формул и физических законов. Для построения цифрового двойника процессов в ряде случаев может понадобиться создание акселераторов, состоящих из представителей научно-исследовательских институтов, предприятий и ИТ-компаний.

Гипотезы о возможности применения теоретических моделей физических процессов для предсказания поломок оборудования в каждом конкретном случае требуют проверки, проведения НИОКР и т.д. Модели, построенные на наборах больших данных, в частности, исторических – гораздо более понятная и надежная технология. Но для этого данные необходимо собирать, предварительно оснастив оборудование соответствующими датчиками.

Даже если оборудование снабжено датчиками, то бывают проблемы с правильной организацией потоков данных, доступом к моделям хранения данных. Например, данные могут находиться в разных местах, быть плохо структурированы и непригодны для анализа.

С чего начать?

Правильно организованное хранилище данных помогает решить эти проблемы. Хранилище – это не просто совокупность баз данных, собранных из разных систем предприятия. Оно включает определенные инструменты и принципы работы с данными, возможности создавать удобные витрины данных под каждую отдельную задачу и проводить предиктивную аналитику.

От того, как устроено хранилище, будет зависеть скорость и удобство работы с данными и, в конечном счете, перспективы будущих проектов, в которых данные играют ключевую роль. Поэтому, чтобы «озеро данных» не превратилось в болото, к проекту по его созданию нужно подойти основательно. Готовых и гарантированных решений здесь нет – у каждой компании есть много нюансов, которые нужно учитывать.

Прежде чем начинать такой проект, необходимо ответить на вопросы:

- какие процессы и задачи бизнеса и производства должно быть связаны с хранилищем?
- кто определяет, какие источники данных должны быть подключены к хранилищу? - кто отвечает за качество данных?
- кто описывает данные, которые лежат в хранилище?
- как будет построено взаимодействие команды хранилища с командами потребителей и источников данных?

- где разместить хранилище и аналитические системы – локально (on-premise) или в облаке?

Список вопросов, требующих ответа, можно еще долго продолжать. Без ответов на них работа с хранилищем рискует стать медленной, а его полноценное развитие – дорогостоящим.

Этапы создания хранилища данных

Работа по созданию хранилища данных включает несколько ключевых процессов:

1. Диагностика data-ландшафта компании

Позволяет понять, как должен измениться ландшафт данных сейчас, чтобы обеспечить бизнес-потребности компании в будущем, подсветить зоны роста. На этом этапе важно обеспечить доступность ИТ-сервисов, данных и сотрудников, являющихся хранителями информации о данных компании, замотивировать персонал делиться информацией о технологических процессах и собираемых данных. В задачи этапа входит аудит процессов-генераторов данных, систем-источников и систем-потребителей данных, обследование интеграционной инфраструктуры и текущего подхода к хранению и обработке данных.

2. Создание и внедрение стратегии управления данными

После диагностики формируется стратегия, которая должна быть согласована со всеми организационными слоями предприятия, в частности с бизнес- и ИТ-департаментами. От неё отталкиваются при реализации всех последующих этапов. Создание такой стратегии может происходить в рамках первого этапа.

3. Разработка программы управления данными и выбор технологического стека

На этом этапе определяется, какие технологии и инструменты будут использованы для сбора, хранения, обработки и анализа данных. Важно выбрать решения, которые будут интегрироваться с существующими системами, поддерживать масштабируемость на будущее и которые можно быстро и дешево заменить. Программа управления данными должна включать планы по обучению сотрудников, внедрению лучших практик в области работы с данными, повышению ИТ-грамотности персонала в целом.

4. Выбор оптимальной архитектуры хранилища.

Наиболее популярные архитектуры – Data Lake, DWH, LakeHouse и Data Mesh.

Data Lake или озеро данных – среда хранения, в которой аккумулируются любые типы данных: структурированные, полуструктурированные и неструктурированные из любого источника в исходных форматах. По сути, это сбор и хранение сырых данных.

DWH, или корпоративное хранилище данных, представляет собой централизованный репозиторий хранения и анализа структурированных данных для конкретных задач бизнес-аналитики.

LakeHouse – гибридная архитектура, содержащая наилучшие наработки от DWH и Data Lake, она позволяет проводить аналитику на любых типах данных – структурированных и неструктурированных.

Подход Data Mesh предполагает, что сотрудники, работающие в конкретных бизнес-областях (доменах) и использующие определенные данные с помощью инфраструктурного ПО, создают продукты данных. При этом в центральной части структуры Data Mesh присутствует единая регуляторная функция – Data Governance, которая формирует общие подходы к работе с данными.

Эта концепция подойдет крупным корпорациям с холдинговой структурой, в которых создание централизованного монолитного хранилища является достаточно дорогой, долгой и организационно сложной задачей. Также Data Mesh будет удобна компаниям с быстрорастущим количеством источников данных.

5. Внедрение функции CDO

CDO (Chief Data Officer) – директор по данным, который формирует общие подходы к работе с данными. Он регламентирует технологический стек, а также организационно-процессную составляющую работы с данными, внедрение новых ролей для контроля за данными и повышение data-грамотности персонала. На нем также лежат задачи по созданию хранилища и реализации программы управления данными в каждом бизнес-домене.

6. Интеграция данных из источников

На этом этапе понадобятся результаты первого этапа, где описываются все имеющиеся источники данных компании. Здесь необходимо осуществить приоритезацию источников и в соответствии с ней последовательно интегрировать источники в хранилище. Важно, чтобы к этому этапу было произведено максимальное оснащение оборудования датчиками, чтобы данные можно было использовать в аналитике и проектах и считать экономические эффекты от внедрения самого хранилища. В противном случае получится внедрение хранилище ради хранилища – монетизации этого процесса не произойдет.

Затраты и сложности

Чаще всего препятствием для реализации проектов создания хранилищ данных становится величина затрат. Стоимость зависит от «железа» для организации центров обработки данных. В итоге на оборудование приходится порядка половины (иногда и больше) всех затрат на внедрение.

Альтернативой могли бы быть облачные решения. Расходы на облако существенно меньше, чем на локальную инфраструктуру, их значительно легче рассчитывать и прогнозировать.

Что касается методов защиты локальных и облачных решений, несмотря на распространенное мнение, они принципиально не отличаются. Однако промышленные компании по соображениям безопасности облака, как правило, пока не рассматривают.

Тренд последних лет – гибридные решения, объединяющие локальную и облачную инфраструктуры. Они позволяют компаниям оптимизировать расходы на информационную безопасность, а также ускорить и повысить гибкость бизнес-процессов.

Так, в случае критически важных систем и чувствительных данных, накладываются повышенные требования к уровню ИБ и, соответственно, такие решения рекомендуется размещать локально. Для систем с низкими требованиями можно использовать облака.

Стратегия data governance как основа успеха

Главная проблема проектов цифровизации производств на основе ИИ – ожидания быстрого эффекта. Промышленные предприятия, как и весь бизнес, видят в ИИ эдакую «серебряную пулю». Но активное насаждение таких разработок без предварительно созданной и внедренной стратегии data governance приводит к насыщению ИТ-ландшафта компании не интегрированными между собой решениями, отсутствию единого хранилища и единой функции управления данными. ИИ-сервисы работают разрозненно, и эффект внедрения теряется. Решать потенциальные проблемы такого рода необходимо на стадии создания стратегии цифровизации предприятия – прежде всего, тщательным проектированием хранилища данных, без которого невозможно нормальное функционирование технологий ИИ.

7057