← Вернуться к списку

DreamML – фабрика ML решений

  • Руководитель проекта со стороны заказчика

  • Категория

  • Номинация

  • Цели

    Повысить эффективность и качество работы DS команд при создании моделей машинного обучения за счет автоматизации рутинных операций при подготовке данных, проведении экспериментов, а также на стыке таких этапов производственного процесса, как валидация и создание промышленной версии

  • Сроки выполнения

    октябрь, 2023 — сентябрь, 2024
  • Год завершения проекта

    2024

  • Масштаб проекта

    50 автоматизированных рабочих мест
  • Результаты

    • Сокращение времени на обучение моделей в среднем с 20 до 1 раб.дней

    • Сокращение времени на создание промышленной версии с 6 до 3 раб.дней

  • Уникальность проекта

    1. Декомпозировали работу DS на этапе обучения моделей на 8 шагов, 6 из которых автоматизировали.

    2. Фреймворк DreamML уникален тем, что мы интегрировали его в производственный процесс и настроили пайплайн обучения на создание модели, наиболее подходящей для реального промышленного применения, где важны не только качество модели, но и стоимость её внедрения и эксплуатации.

    3. Фреймворком активно пользуется департамент анализа данных из 150+ человек, что значительно влияет на ключевые бизнес-показатели в контексте моделирования и анализа данных, благодаря этому департамент находится в лидерах компании по показателю "скорость разработки и выведения моделей в промышленную эксплуатацию" среди других подразделений.

  • Проект решает задачи импортозамещения

    Да

  • Использованное ПО

    • Sberbank Edition Hadoop

    • Python

  • Решение из каталога Global CIO

    В проекте не используются решения из каталога Global CIO

  • Сложность реализации

    Самой главной технической сложностью было создание универсальной архитектуры решения, способного поддерживать приемлемый уровень качества разработанных на нём прогнозных моделей и скорость их разработки по сравнению с персональными решениями бизнес-команд для всех типов задач, при этом сохранив необходимую командам гибкость решения в контексте использования инструмента и его интеграции с индивидуальными решениями заказчиков.

  • Описание

    Фабрика ML решений DreamML представляет собой программное обеспечение, разработанное с целью автоматизации разработки прогнозных моделей, ускорения процессов их валидации и вывода в промышленную эксплуатацию. 

    Проект написан на языке программирования Python с использованием основных библиотек для анализа данных и машинного обучения: sklearn, xgboost, lightgbm, catboost, pandas, numpy и т.д. 

    DreamML:

    • Поддерживает как классические типы задач машинного обучения на структурированных данных: регрессию, классификацию, прогнозирование временных рядов, задачи ранжирования, так и задачи на неструктурированных текстовых данных (кластеризацию, классификацию, семантический поиск).

    • Включает в себя возможность построить единую модель и на каждом этапе моделирования выбрать лучшую по заданным метрикам качества модели.

    • Строит модели путём перебора различных комбинаций методов обработки данных и различных алгоритмов машинного обучения. Благодаря этому возможно соблюсти баланса между точностью модели и числом признаков, которые будет использовать такая модель (чем меньше признаков – тем легче вывести модель в промышленную эксплуатацию).

  • География проекта

    Результат используется в процессах, охватывающих все регионы Российской Федерации

Комментировать 4

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Максим Часовиков

    Максим Часовиков

    МГУ имени М.В.Ломоносова

    Руководитель цифровизации образовательных процессов

    Спасибо большое за подробное описание представленного на конкурс проекта, вы пишите:
    • Сокращение времени на создание промышленной версии с 6 до 3 раб.дней
    Как высчитаете, насколько именно это необходимо для бизнеса сейчас?
    Ответить
    • Виталий Шукюров

      Виталий Шукюров

      ПАО Сбербанк

      Исполнительный директор, ИТ лидер трайба "УМиИД"

      Максим, добрый день! Благодарю за интерес к проектуРешения в области ИИ как никогда развиваются стремительно. К тому же в этой сфере очень востребованы эксперименты и разного рода А/Б тесты. Сокращение T2M очень важно для бизнеса, чтобы быстро проверять гипотезы и быстро выходить на рынок с новыми продуктами
      Ответить
  • Дмитрий Турчановский

    Дмитрий Турчановский

    ЗН Цифра

    Заместитель Генерального директора по ИТ

    Здравствуйте. Почему потребовалось создавать собственное решение если на рынке есть готовые специализированные решения? Какие соответственно использовали критерии при принятии решения? В каком составе и количестве создавала, развивает и поддерживает команда разработки?
    Ответить
    • Виталий Шукюров

      Виталий Шукюров

      ПАО Сбербанк

      Исполнительный директор, ИТ лидер трайба "УМиИД"

      Добрый день! Основной метрикой нашего продукта является T2M. Что потребовало найти возможность максимальной стандартизации решений и максимальной автоматизации.Решения на рынке, в opensource  нам хорошо известны. Мы проактивно используем в том числе наработки opensource. Особенностью нашего продукта является его большая специализация на конкретные типы задач. Т.е. мы берем лучшие наработки и на них строим специализированное решение более узкого круга задач.Обратной стороной является меньшая универсальность, но мы и не стремимся за универсальностью решения.Команда продукта – 6 человек.
      Ответить
  • Заказчик

    ПАО Сбербанк

    ПАО Сбербанк

Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.