SyMoMa – System of model management. Система управления моделями

Заказчик
ПАО Росбанк
Руководитель проекта со стороны заказчика
ИТ-поставщик
ООО "Дата Сапиенс"
Год завершения проекта
2023
Сроки выполнения проекта
Декабрь, 2021 - Август, 2023
Масштаб проекта
60 автоматизированных рабочих мест
Цели
  • Обеспечить прозрачность жизненного цикла моделей и простоту управления моделями на всех этапах жизненного цикла моделей в компании.

  • Консолидировать DS-/ML-экспертизу (Data Science/ Machine Learning) в рамках одного отдела или целой компании.

  • Сократить время доставки ML-моделей до контура промышленного применения.

  • Упростить оценку качества (мониторинг, количественную и качественную валидацию) ML-моделей.

  • Снизить риск использования моделей, не отвечающих целям бизнеса.

  • Обеспечить возможность расширения количества моделей без увеличения штата специалистов.

Результаты

Система управления моделями внедрена в промышленную эксплуатацию. В настоящее время реестр моделей системы насчитывает более 150 моделей. В работе с системой и ведении в ней ML-проектов задействованы как представители бизнеса (владельцы моделей, бизнес-аналитики), так и технические специалисты (разработчики моделей, валидаторы). Для управления жизненными циклами объектов системы активное участие принимают методологи. Система полностью заменила применявшийся ранее подход с использованием информации в файлах Excel. С помощью системы осуществляется мониторинг и выполняются работы по оценке качества моделей.

Уникальность проекта

В настоящее время бизнес-подразделения компании для повышения эффективности решений своих задач с особой интенсивностью осуществляют инициативы по разработке и внедрению решений с составляющими машинного обучения (далее – ML, Machine Learning). Увеличение потока разрабатываемых и применяемых ML-моделей привносит модельный риск и повышает нагрузку на валидаторов таких решений.

Внедрённая система позволяет:

  • автоматизировать расчёты и предоставлять всю необходимую информацию для проведения оценки качества моделей,

  • сокращать время для подготовки и фиксировать происхождение используемых для обучения моделей данных,

  • управлять жизненным циклом моделей,

  • отслеживать и организовывать процесс разработки и внедрения ML-решений.

Все эти мероприятия позволяют эффективно управлять модельным риском и снижать возможные негативные последствия даже при увеличении объёма запросов бизнеса в решениях такого рода.

Уникальность проекта заключается в том, что подобная система впервые построена с использованием российского программного обеспечения из линейки Kolmogorov.ai: Predicate, Continuity, Axiom – программные продукты, зарегистрированные в реестре отечественного ПО. Российские приложения разрабатывались с учётом опыта внедрения на нашем рынке зарубежных аналогов в предыдущие года и не только не уступают им по функциональности, но и принимают во внимание отечественную специфику.

Модуль Predicate имеет уникальную функциональность и не имеет аналогов на рынке. В Росбанке модуль широко применяется, т. к. количество решений с ML-составляющими, внедряемых в банке, продолжает увеличиваться.
Проект решает задачи импортозамещения
Да
Использованное ПО

Система создана на базе программных продуктов из реестра отечественного ПО Kolmogorov.ai: Predicate, Continuity, Axiom. Выполнены интеграции со следующими смежными системами в окружении Росбанка:

1. хранилищами данных (Oracle, Hive, S3) – для использования корпоративных хранилищ в качестве источников данных для создания каталога признаков;
2. каталогом описания структур и данных корпоративных хранилищ (Metaflow) – для расширения подробной информации об источниках;
3. единой службой каталогов (Active Directory – для обеспечения единого входа во все модули системы с помощью корпоративной учётной записи;
4. таск-трекером (JIRA) – для вовлечения в активности процесса разработки и внедрения ML-моделей сервисных команд компании, например, при необходимости создания дополнительных доступов для работы модели;
5. инструментами CI/CD инфраструктуры (GitLab) – для автоматизации настройки регламентных процессов обновления наборов данных для обучения и мониторинга;
6. почтовым сервисом (SMTP) – для уведомления пользователей о событиях в модулях системы, например, о результатах мониторинга модели, на которые следует обратить внимание;
7. службами хранения и анализа логов ELK (Elastic, Logstash, Kibana) – для сохранения всех событий системы в целях анализа нештатных ситуаций и сбоев.


Сложность реализации

Основная сложность заключалась в анализе источников данных пилотных моделей и выработке единых централизованных подходов к наполнению каталога признаков (Feature Store), к применению необходимых преобразований признаков для последующего их использования в обучении и оценке качества моделей.


Описание проекта

Создание комплексной системы управления моделями предполагало внедрение трёх модулей и выполнение необходимых интеграций со смежными системами Росбанка:

1. Модуль обеспечения качества модели.

Модуль реализован на базе программного продукта Predicate и позволяет проводить расчёты как статистических метрик качества данных и результатов работы моделей, так и любых произвольных бизнес-метрик, интересующих бизнес-подразделения или других заинтересованных лиц. Модуль используется для:

  • настройки и обеспечения мониторинга работы модели, внедренной в промышленную эксплуатацию, с автоматическим уведомлением заинтересованных лиц, в случае если модель начинает деградировать,

  • подготовки и проведения расчётов метрик количественной валидации и оформления печатного отчёта, содержащего результаты расчётов в виде значений, таблиц, диаграмм и графиков,

  • анализа пилотной работы модели с промышленными данными, без необходимости внедрения в промышленную эксплуатация (т. н. исследовательский режим работы модели машинного обучения).

2. Модуль управления жизненным циклом моделей.

Модуль реализован на базе программного продукта Continuity и позволяет организовывать и направлять процесс разработки и внедрения решения, содержащего алгоритмы машинного обучения, обеспечивая единый интерфейс для широкого круга пользователей. Модуль используется для:

  • обеспечения выполнения процесса согласно принятой в компании методике разработки и внедрения решений с применением алгоритмов машинного обучения,

  • оперативного управления процессом разработки, предполагающим активное вовлечение представителей бизнес-подразделений наряду с инженерами, аналитиками данных и дата-сайентистами,

  • автоматизации рутинных задач процесса,

  • расчёта рейтинга модельного риска и управления модельным риском,

  • учёта рекомендаций и результатов их выполнения,

  • ведения реестра разработанных проектов и создания подробного паспорта модели,

  • накопления базы знаний по реализованным проектам машинного обучения.

3. Модуль управления данными для обучения (Feature Store).

Модуль реализован на базе программного продукта Axiom и позволяет быстро получить необходимый для обучения модели набор данных на базе организованного каталога признаков. Модуль используется для:

  • централизованного ведения каталога признаков, использующихся для обучения моделей,

  • расчёта признаков второго порядка на основе базовых признаков,

  • автоматической генерации необходимых агрегатов и срезов (например: расходы по карте за последний месяц/квартал/год (два, три месяца/квартала/года и т. п.), расходы по месяцам/кварталам/годам за период и т. п.),

  • создание набора данных для обучения модели из выбранных и сгенерированных признаков и агрегатов,

  • анализа качества данных и автоматического обновления набора данных по заданному расписанию.

География проекта
Город Москва
Коментарии: 13

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Александр Гудов
    Рейтинг: 49
    АО ОКБ
    Head of Data & Analytics Platform
    16.11.2023 07:21

    Интересный проект. Перспективное направление. Удачи

  • Яна Баскакова
    Рейтинг: 181
    СИБШАХТОСТРОЙ
    Директор по развитию
    20.11.2023 05:20

    Очень понравился проект! Успехов!

  • Евгений Чернобуров
    Рейтинг: 16
    ООО Глоубайт
    Руководитель Практики
    14.12.2023 12:41

    Каковы конкретные подходы к обеспечению качества и валидации моделей? И есть ли система периодического аудита результатов?

    • Екатерина Гурова Евгений
      Рейтинг: 117
      ПАО Росбанк
      Директор Департамента цифровых сервисов, трансформации и координации ресурсов рисков
      21.12.2023 15:21

      В системе реализованы следующие возможности:
      - модуль количественной оценки качества моделей
      - инструменты качественной оценки - опросники, заполняемые при разработке модели
      - таймеры, указывающими на время повторной валидации моделей
      - отчетность по модельному риску

  • Иван Котляровский
    Рейтинг: 431
    СПАО “Ингосстрах”
    Руководитель направления Управления сопровождения урегулирования
    15.12.2023 15:26

    Екатерина, добрый день! Подскажите, какой суммарный объём данных (предикторов) содержится в 150 моделях?

    • Екатерина Гурова Иван
      Рейтинг: 117
      ПАО Росбанк
      Директор Департамента цифровых сервисов, трансформации и координации ресурсов рисков
      24.12.2023 16:37

      Иван, добрый день.
      До внедрения системы SyMoMa реестр моделей велся с помощью Excel. Во время проекта внедрения существующий реестр был мигрирован в новую систему и теперь поддерживается там. К сожалению, в прежнем реестре информация о количестве предикторов моделей не регистрировалась, поэтому на текущий момент такая информация пока неизвестна.
      Основываясь на результатах анализа банковских моделей разного класса, выяснили что для каждой модели в среднем финальное количество предикторов будет примерно 10-30 для модели. Учитывая, что существуют предикторы-кандидаты и возможность использовать предикторы повторно, общая база фичей в модуле Управления данными моделей будет исчисляться несколькими сотнями.

  • Андрей Турунов
    Рейтинг: 170
    ПАО “Группа Ренессанс Страхование”
    Управляющий директор департамента клиентского опыта
    20.12.2023 17:01

    Екатерина, добрый день! Поздравляю с успешным завершением проекта! Подскажите, оценивалось ли уменьшение Time To Market моделей от идеи до внедрения, после запуска системы? Есть ли понимание за счёт автоматизации какого этапа разработки и внедрения моделей был получен наибольший вклад в ускорение?

    • Екатерина Гурова Андрей
      Рейтинг: 117
      ПАО Росбанк
      Директор Департамента цифровых сервисов, трансформации и координации ресурсов рисков
      24.12.2023 16:44

      Андрей, добрый день! Спасибо!
      Основными драйверами снижения t2m в нашем случае являются следующие:
      - автоматизированное исполнение бизнес-процесса разработки и переключение задач между участниками проекта,
      - повторное использование опыта коллег для исключения двойной работы.

  • Ильхом Галимов
    Рейтинг: 230
    ПАО "УЗБЕКИНВЕСТ" КОМПАНИЯ ЭКСПОРТНО-ИМПОРТНОГО СТРАХОВАНИЯ"
    CIO
    21.12.2023 09:20

    Как система гарантирует точность и актуальность моделей ML при их внедрении в бизнес-процессы и как измеряется их вклад в результаты?

    • Екатерина Гурова Ильхом
      Рейтинг: 117
      ПАО Росбанк
      Директор Департамента цифровых сервисов, трансформации и координации ресурсов рисков
      24.12.2023 16:41

      Ильхом, спасибо за вопрос.
      Для оценки моделей мы руководствуемся не только статистическими, но и бизнес-метриками. В системе выделен Модуль мониторинга и валидации, чьей основной задачей является настройка и использование сложных проектов, которые объединяют метрики моделей в различных частях бизнес-решения под один дашборд.

  • Павел Шорохов
    Рейтинг: 471
    Магнит
    Директор департамента по работе с данными
    24.12.2023 22:48

    Добрый день! Поздравляю с успешным проектом. Подскажите, насколько удалось сократить время доставки ML-моделей? На какие еще метрики повлияло внедрение системы?

  • Артем Востриков
    Рейтинг: 50
    ПАО Группа Ренессанс Страхование
    Руководитель направления клиентской аналитики
    29.12.2023 11:15

    Екатерина, добрый день! Подскажите, пожалуйста, какой объём ресурсов потребовался для успешной реализации проекта непосредственно со стороны Росбанка? Какая роль была самая востребованная?

  • Максим Часовиков
    Рейтинг: 4767
    Центр цифровой экономики МГУ
    Ведущий специалист
    04.01.2024 23:18

    Добрый день, обычно под БигДатой подразумевается работа с разнородными неструктурированными, часто нетекстовыми и данными из разных источников и их обогащение. С какими источниками данных, прежде всего нетекстовых, осуществлялась работа в этом проекте?

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.