DreamML – фабрика ML решений

Заказчик:
ПАО Сбербанк
Руководитель проекта со стороны заказчика
Год завершения проекта
2024
Сроки выполнения проекта
октябрь, 2023 — сентябрь, 2024
Масштаб проекта
50 автоматизированных рабочих мест
Цели

Повысить эффективность и качество работы DS команд при создании моделей машинного обучения за счет автоматизации рутинных операций при подготовке данных, проведении экспериментов, а также на стыке таких этапов производственного процесса, как валидация и создание промышленной версии

Результаты
  • Сокращение времени на обучение моделей в среднем с 20 до 1 раб.дней

  • Сокращение времени на создание промышленной версии с 6 до 3 раб.дней

Уникальность проекта

  1. Декомпозировали работу DS на этапе обучения моделей на 8 шагов, 6 из которых автоматизировали.

  2. Фреймворк DreamML уникален тем, что мы интегрировали его в производственный процесс и настроили пайплайн обучения на создание модели, наиболее подходящей для реального промышленного применения, где важны не только качество модели, но и стоимость её внедрения и эксплуатации.

  3. Фреймворком активно пользуется департамент анализа данных из 150+ человек, что значительно влияет на ключевые бизнес-показатели в контексте моделирования и анализа данных, благодаря этому департамент находится в лидерах компании по показателю "скорость разработки и выведения моделей в промышленную эксплуатацию" среди других подразделений.

Проект решает задачи импортозамещения
Использованное ПО
  • Sberbank Edition Hadoop

  • Python

Сложность реализации

Самой главной технической сложностью было создание универсальной архитектуры решения, способного поддерживать приемлемый уровень качества разработанных на нём прогнозных моделей и скорость их разработки по сравнению с персональными решениями бизнес-команд для всех типов задач, при этом сохранив необходимую командам гибкость решения в контексте использования инструмента и его интеграции с индивидуальными решениями заказчиков.

Описание проекта

Фабрика ML решений DreamML представляет собой программное обеспечение, разработанное с целью автоматизации разработки прогнозных моделей, ускорения процессов их валидации и вывода в промышленную эксплуатацию. 

Проект написан на языке программирования Python с использованием основных библиотек для анализа данных и машинного обучения: sklearn, xgboost, lightgbm, catboost, pandas, numpy и т.д. 

DreamML:

  • Поддерживает как классические типы задач машинного обучения на структурированных данных: регрессию, классификацию, прогнозирование временных рядов, задачи ранжирования, так и задачи на неструктурированных текстовых данных (кластеризацию, классификацию, семантический поиск).

  • Включает в себя возможность построить единую модель и на каждом этапе моделирования выбрать лучшую по заданным метрикам качества модели.

  • Строит модели путём перебора различных комбинаций методов обработки данных и различных алгоритмов машинного обучения. Благодаря этому возможно соблюсти баланса между точностью модели и числом признаков, которые будет использовать такая модель (чем меньше признаков – тем легче вывести модель в промышленную эксплуатацию).

География проекта

Результат используется в процессах, охватывающих все регионы Российской Федерации

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.