ML Platform: Комплексное решение для бизнес процессов

Заказчик:
BIOCAD
Руководитель проекта со стороны заказчика
Год завершения проекта
2024
Сроки выполнения проекта
январь, 2023 — август, 2024
Масштаб проекта
3500 человеко-часов
Цели

Создать платформу для ускорения и упрощения внедрения ML решений во все бизнес процессы биотехнологической компании

Результаты

Платформа позволила в течении года запустить и внедрить ИИ решения в нескольких направлениях компании: производство, клинические и доклинические исследования, маркетинг, ИТ, HR а так же сервисы для общекорпоративного использования.

Уникальность проекта

ML платформа, представляет собой комплексное решение для полного цикла работы с машинным обучением — от сбора данных до развертывания моделей и создания интерфейсов во всех направлениях работы биотехнологической компании, начиная от взаимодействия с оборудованием для культивирования белка до ботов пациентской поддержки с использованием ИИ

Использованное ПО

Сбор данных с помощью Airflow Использование Apache Airflow для автоматизации процессов сбора данных из внешних API и внутренних баз. Airflow создает рабочие процессы с DAG (направленные ациклические графы), включая задачи по выгрузке, очистке, трансформации и загрузке данных в хранилища.

Хранилища данных

PostgreSQL для структурированных данных.

ClickHouse для анализа временных рядов.

Файловые хранилища для неструктурированных данных.

ML Flow для управления жизненным циклом ML

Трекинг экспериментов: подробный трекинг параметров, метрик и артефактов.

Хранение моделей: централизованное хранилище с версионированием.

Деплоймент моделей: интеграция с CI/CD для автоматизации выкатывания.

Разработка приложений

Самописные библиотеки: для ускорения разработки сервисов и моделей.

Шаблоны: стандарты логирования, мониторинга и авторизации для унификации.

CI/CD: автоматизация процессов с GitLab CI/CD.

HashiCorp Vault: безопасное управление секретами.

Сервера для разработки.

Сложность реализации

Реализация ML платформы сложна из-за необходимости интеграции различных технологий, большого объема данных и масштабирования на множество доменов компании. Автоматизация процессов CI/CD на edge устройства усугубляет сложность, требуя разработки надежных механизмов для взаимодействия с оборудованием. Все эти факторы делают проект трудоемким, требующим команды высококвалифицированных специалистов и слаженного взаимодействия между ними.

Описание проекта

ML Platform – это инновационная платформа, которая объединяет в себе полный спектр сервисов и инструментов для машинного обучения. Она создана для того, чтобы ускорить и упростить разработку и внедрение решений на базе машинного обучения и обеспечить их масштабирование в различных бизнес-процессах компании. Это комплексное решение, которое значительно сокращает время от идеи до запуска, автоматизируя ключевые этапы жизненного цикла разработки моделей. Одной из основополагающих функций платформы является сбор данных с использованием Apache Airflow. Этот инструмент автоматизирует процессы извлечения информации из множества источников, включая внешние API и внутренние базы данных. Благодаря поддержке Directed Acyclic Graphs (DAGs), Airflow позволяет выстраивать сложные и надежные рабочие процессы, охватывающие задачи по очистке, трансформации и загрузке данных в хранилища, что делает управление данными более эффективным и прозрачным.

Архитектура хранения данных платформы многоуровневая и обеспечивает оптимальную производительность за счет использования различных систем. Для структурированных данных применяются реляционные базы, такие как PostgreSQL, которые обеспечивают высокую производительность запросов. Специализированные хранилища, например ClickHouse, используются для данных, представляющих собой временные ряды, что позволяет мгновенно обрабатывать и анализировать большие объемы информации. Для неструктурированных данных, таких как изображения или текстовые файлы, предусмотрены файловые хранилища, что позволяет работать с различными типами информации. Управление жизненным циклом моделей на платформе осуществляется с помощью интеграции с MLflow. Этот инструмент предоставляет все необходимые возможности для трекинга экспериментов, фиксируя параметры, метрики и артефакты, что обеспечивает прозрачность и воспроизводимость каждого этапа разработки. MLflow также позволяет централизованно хранить модели, упрощая управление версиями и ускоряя поиск необходимых решений. Более того, автоматизированный деплоймент моделей с использованием MLflow, интегрированного в процессы CI/CD, позволяет оперативно вводить модели в эксплуатацию и регулярно обновлять их.

Также платформа включает в себя библиотеку самописных компонентов, которые позволяют ускорить создание новых ML-сервисов и унифицировать процессы за счет использования стандартных шаблонов логирования, мониторинга и авторизации. Это значительно упрощает обеспечение безопасности и отслеживание состояния системы. Автоматизация процессов развертывания осуществляется с помощью GitLab CI/CD, что гарантирует непрерывность разработки, тестирования и внедрения решений. Управление секретами реализовано с использованием HashiCorp Vault, что обеспечивает надежную защиту конфиденциальной информации и безопасное взаимодействие с инфраструктурой. Важной частью является организация серверной инфраструктуры, включая разработку механизмов взаимодействия с edge-устройствами для обработки данных на периферии, что повышает эффективность всей системы.

География проекта

Вся территория РФ

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.