• 526

    Заявлено проектов

  • 405

    Опубликовано проектов

  • 30

    Оставлено комментариев

  • 343

    Количество голосов

  • 53

    Дней до окончания голосования

← Вернуться к списку

ML Platform: Комплексное решение для бизнес процессов

  • Руководитель проекта со стороны заказчика

    Василий Вологдин

    BIOCAD

    Руководитель направления мониторинга и анализа данных информационных систем

  • Категория

  • Номинация

  • Цели

    Создать платформу для ускорения и упрощения внедрения ML решений во все бизнес процессы биотехнологической компании

  • Сроки выполнения

    январь, 2023 — август, 2024
  • Год завершения проекта

    2024

  • Масштаб проекта

    3500 человеко-часов
  • Результаты

    Платформа позволила в течении года запустить и внедрить ИИ решения в нескольких направлениях компании: производство, клинические и доклинические исследования, маркетинг, ИТ, HR а так же сервисы для общекорпоративного использования.

  • Уникальность проекта

    ML платформа, представляет собой комплексное решение для полного цикла работы с машинным обучением — от сбора данных до развертывания моделей и создания интерфейсов во всех направлениях работы биотехнологической компании, начиная от взаимодействия с оборудованием для культивирования белка до ботов пациентской поддержки с использованием ИИ

  • Использованное ПО

    Сбор данных с помощью Airflow Использование Apache Airflow для автоматизации процессов сбора данных из внешних API и внутренних баз. Airflow создает рабочие процессы с DAG (направленные ациклические графы), включая задачи по выгрузке, очистке, трансформации и загрузке данных в хранилища.

    Хранилища данных

    PostgreSQL для структурированных данных.

    ClickHouse для анализа временных рядов.

    Файловые хранилища для неструктурированных данных.

    ML Flow для управления жизненным циклом ML

    Трекинг экспериментов: подробный трекинг параметров, метрик и артефактов.

    Хранение моделей: централизованное хранилище с версионированием.

    Деплоймент моделей: интеграция с CI/CD для автоматизации выкатывания.

    Разработка приложений

    Самописные библиотеки: для ускорения разработки сервисов и моделей.

    Шаблоны: стандарты логирования, мониторинга и авторизации для унификации.

    CI/CD: автоматизация процессов с GitLab CI/CD.

    HashiCorp Vault: безопасное управление секретами.

    Сервера для разработки.

  • Решение из каталога Global CIO

    В проекте не используются решения из каталога Global CIO

  • Сложность реализации

    Реализация ML платформы сложна из-за необходимости интеграции различных технологий, большого объема данных и масштабирования на множество доменов компании. Автоматизация процессов CI/CD на edge устройства усугубляет сложность, требуя разработки надежных механизмов для взаимодействия с оборудованием. Все эти факторы делают проект трудоемким, требующим команды высококвалифицированных специалистов и слаженного взаимодействия между ними.

  • Описание

    ML Platform – это инновационная платформа, которая объединяет в себе полный спектр сервисов и инструментов для машинного обучения. Она создана для того, чтобы ускорить и упростить разработку и внедрение решений на базе машинного обучения, а также обеспечить их масштабирование в различных бизнес-процессах компании. Платформа представляет собой комплексное решение, которое значительно сокращает время от идеи до запуска, автоматизируя ключевые этапы жизненного цикла разработки моделей. Одной из основополагающих функций платформы является сбор данных с использованием Apache Airflow. Этот инструмент автоматизирует процессы извлечения информации из множества источников, включая внешние API и внутренние базы данных. Благодаря поддержке Directed Acyclic Graphs (DAGs), Airflow позволяет выстраивать сложные и надежные рабочие процессы, охватывающие задачи по очистке, трансформации и загрузке данных в хранилища, что делает управление данными более эффективным и прозрачным.

    Архитектура хранения данных платформы многоуровневая и обеспечивает оптимальную производительность за счет использования различных систем. Для структурированных данных применяются реляционные базы, такие как PostgreSQL, которые обеспечивают высокую производительность запросов. Специализированные хранилища, например ClickHouse, используются для данных, представляющих собой временные ряды, что позволяет мгновенно обрабатывать и анализировать большие объемы информации. Для неструктурированных данных, таких как изображения или текстовые файлы, предусмотрены файловые хранилища, что позволяет работать с различными типами информации. Управление жизненным циклом моделей на платформе осуществляется с помощью интеграции с MLflow. Этот инструмент предоставляет все необходимые возможности для трекинга экспериментов, фиксируя параметры, метрики и артефакты, что обеспечивает прозрачность и воспроизводимость каждого этапа разработки. MLflow также позволяет централизованно хранить модели, упрощая управление версиями и ускоряя поиск необходимых решений. Более того, автоматизированный деплоймент моделей с использованием MLflow, интегрированного в процессы CI/CD, позволяет оперативно вводить модели в эксплуатацию и регулярно обновлять их.

    Для разработки и развертывания приложений платформа включает в себя библиотеку самописных компонентов, которые позволяют ускорить создание новых ML-сервисов и унифицировать процессы за счет использования стандартных шаблонов логирования, мониторинга и авторизации. Это значительно упрощает обеспечение безопасности и отслеживание состояния системы. Автоматизация процессов развертывания осуществляется с помощью GitLab CI/CD, что гарантирует непрерывность разработки, тестирования и внедрения решений. Управление секретами реализовано с использованием HashiCorp Vault, что обеспечивает надежную защиту конфиденциальной информации и безопасное взаимодействие с инфраструктурой. Важной частью является организация серверной инфраструктуры, включая разработку механизмов взаимодействия с edge-устройствами для обработки данных на периферии, что повышает эффективность всей системы.

    Реализация ML Platform – это сложный и масштабный проект, требующий интеграции множества технологий, обработки больших объемов данных и масштабирования на множество доменов компании. Ключевым вызовом является автоматизация процессов CI/CD для edge-устройств, что требует разработки надежных механизмов взаимодействия с оборудованием и соблюдения строгих стандартов безопасности. Платформа не только делает процесс разработки моделей более прозрачным и эффективным, но и закладывает основу для внедрения инноваций, что способствует устойчивому развитию компании в условиях динамичного технологического ландшафта. Слаженная работа высококвалифицированной команды и продуманное взаимодействие между всеми участниками являются критически важными для успешного выполнения этого проекта, который несет в себе значительный потенциал для трансформации бизнес-процессов и улучшения конечных результатов.

  • География проекта

    Вся территория РФ

Комментировать

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Заказчик

    BIOCAD

    BIOCAD

Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.