Корпоративная дата-платформа – единый конвейер по работе с данными
Какие ключевые задачи решает проект?
Проект направлен на решение нескольких ключевых задач:
- обеспечение использования российского технологического стека,
- исключение дублирования и повышение прозрачности в распределении ответственности за технологический стек и реализацию дата-продуктов в блоках,
- улучшение взаимосвязанности компонентов технологического стека по работе с данными,
- снижение затрат и трудоемкости операций, связанных с обработкой данных.
Что было самым сложным в реализации проекта?
Основной вызов в реализации проекта заключался в отсутствии готовых отечественных решений на рынке, что потребовало разработки собственной высокотехнологической платформы по работе с данными. Кроме того, сложности возникли из-за разрозненных подходов в работе с данными в различных блоках компании и дублирования используемого инструментария.
Также в рамках проекта предстояло решить ряд других не менее важных вопросов:
- поиск и выбор отечественных компонентов;
- разработка недостающих компонентов для эффективной работы платформы;
- интеграция компонентов между собой с учетом стандартов информационной безопасности в компании;
- обучение сотрудников новым инструментам по работе с данными;
- создание единых регламентов и шаблонов разработки, гайдов по работе с инструментами и технологиям для выравнивания уровня компетенции специалистов.
Каких результатов удалось достичь?
Результат – единая дата-платформа, которая позволяет эффективно обрабатывать и анализировать данные. Это комплексное решение вопроса разрозненности инфраструктуры и ПО по работе с данными в компании.
Внедрены инструменты для визуализации и анализа данных, инструменты по каталогизации и описанию, инструменты по верификации качества данных, инструменты по интеграции и хранению данных, инструменты для самостоятельного анализа данных. Также реализован интеграционный слой (более 40 внутренних и внешних интеграций), соединяющий инструменты между собой в единый процесс.
Реализован полноценный конвейер по работе с данными.
Загрузка, трансформация данных и подготовка витрин для потребителей -> реализация проверок качества данных -> каталогизация и описание данных -> публикация витрин в магазине данных -> реализация аналитических приложений «под ключ» разработчиками или самостоятельно бизнес- пользователями.
Для сокращения трудозатрат при работе с данными был реализован комплекс организационных, технологических, методологических мер: созданы шаблоны разработки, внедрена сквозная ролевая модель доступа к данным, ускорен процесс подключения источников данных к дата-платформе и обеспечен доступ ко всем необходимым инструментам. Также были сформированы регламенты разработки, гайдбуки и программы обучения по всем инструментам.
Для обеспечения стабильной работы дата-платформы внедрены различные аналитические приложения: от мониторинга состояния программного обеспечения до отслеживания объема заполнения платформы данными.
Проект интегрирует все эти элементы в единую систему, что обеспечивает оптимальное использование данных и укрепляет конкурентоспособность компании. Платформа позволяет принимать более обоснованные и оперативные решения, одновременно повышая производительность и улучшая качество управления, снижая риски.
Планируете ли развивать проект дальше?
Сейчас мы активно внедряем российские продукты, которые находятся на стадии развития параллельно с нашими нуждами. В ближайшие годы основной фокус будет направлен на развитие этих вендровских решений. Помимо этого, с ростом зрелости компании и увеличением потребностей в данных, возрастает спрос на новые инструменты и функции, которые они предоставляют.
Мы стремимся к тому, чтобы упростить процессы, внедряя инструменты с низким кодированием (low-код), сервисы самостоятельного извлечения, преобразования и загрузки данных (self-service ETL) и др.
Еще одно важное направление – это интеграция дата-платформы, где хранятся и описываются данные, с ML-платформой для решения более сложных аналитических задач. Наша цель – сократить время, которое дата-сайентисты тратят на поиск, обработку и получение данных, чтобы они могли быстрее применять их в своих моделях.
Что вы бы посоветовали коллегам, внедряющим аналогичные решения?
Максимально использовать опыт других компаний при внедрении такого класса решений. Это поможет избежать распространенных ошибок и ускорить процесс внедрения, опираясь на уже проверенные практики.