DreamML – фабрика ML решений
- Заказчик:
- ПАО Сбербанк
- Руководитель проекта со стороны заказчика
- Год завершения проекта
- 2024
- Сроки выполнения проекта
- октябрь, 2023 — сентябрь, 2024
- Масштаб проекта
- 50 автоматизированных рабочих мест
- Цели
Повысить эффективность и качество работы DS команд при создании моделей машинного обучения за счет автоматизации рутинных операций при подготовке данных, проведении экспериментов, а также на стыке таких этапов производственного процесса, как валидация и создание промышленной версии
- Результаты
-
Сокращение времени на обучение моделей в среднем с 20 до 1 раб.дней
-
Сокращение времени на создание промышленной версии с 6 до 3 раб.дней
-
Уникальность проекта
-
Декомпозировали работу DS на этапе обучения моделей на 8 шагов, 6 из которых автоматизировали.
-
Фреймворк DreamML уникален тем, что мы интегрировали его в производственный процесс и настроили пайплайн обучения на создание модели, наиболее подходящей для реального промышленного применения, где важны не только качество модели, но и стоимость её внедрения и эксплуатации.
-
Фреймворком активно пользуется департамент анализа данных из 150+ человек, что значительно влияет на ключевые бизнес-показатели в контексте моделирования и анализа данных, благодаря этому департамент находится в лидерах компании по показателю "скорость разработки и выведения моделей в промышленную эксплуатацию" среди других подразделений.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
-
Sberbank Edition Hadoop
-
Python
-
- Сложность реализации
Самой главной технической сложностью было создание универсальной архитектуры решения, способного поддерживать приемлемый уровень качества разработанных на нём прогнозных моделей и скорость их разработки по сравнению с персональными решениями бизнес-команд для всех типов задач, при этом сохранив необходимую командам гибкость решения в контексте использования инструмента и его интеграции с индивидуальными решениями заказчиков.
- Описание проекта
Фабрика ML решений DreamML представляет собой программное обеспечение, разработанное с целью автоматизации разработки прогнозных моделей, ускорения процессов их валидации и вывода в промышленную эксплуатацию.
Проект написан на языке программирования Python с использованием основных библиотек для анализа данных и машинного обучения: sklearn, xgboost, lightgbm, catboost, pandas, numpy и т.д.
DreamML:
-
Поддерживает как классические типы задач машинного обучения на структурированных данных: регрессию, классификацию, прогнозирование временных рядов, задачи ранжирования, так и задачи на неструктурированных текстовых данных (кластеризацию, классификацию, семантический поиск).
-
Включает в себя возможность построить единую модель и на каждом этапе моделирования выбрать лучшую по заданным метрикам качества модели.
-
Строит модели путём перебора различных комбинаций методов обработки данных и различных алгоритмов машинного обучения. Благодаря этому возможно соблюсти баланса между точностью модели и числом признаков, которые будет использовать такая модель (чем меньше признаков – тем легче вывести модель в промышленную эксплуатацию).
-
- География проекта
Результат используется в процессах, охватывающих все регионы Российской Федерации