IRIS - общебанковская MLOps-платформа для разработки и эксплуатации моделей машинного обучения

Разработанная для Банка «Открытие» платформа IRIS - одна из первых промышленных общебанковских платформ моделирования на принципах MLOps на российском банковском рынке. Она позволяет внедрять в бизнес-процессы банка модели машинного обучения любой сложности - от логистической регрессии до градиентного бустинга и нейросетей. Важная особенность платформы — возможность бесшовного внедрения модели в среду применения. До конца 2022 года на платформу планируется перевести всех разработчиков моделей и все модели Банка «Открытие».

Реализация проекта заняла практически год – с ноября 2020-го по октябрь 2021 года. Масштаб - 22000 человеко-часов. Партнер проекта – компания Neoflex.

Neoflex

Голосовать.png

Какие цели планировалось достичь при помощи проекта?

За счет внедрения IRIS компания рассчитывала добиться следующих целей:

  • Снижение операционного риска использования моделей машинного обучения
  • Снижение TTM всех моделей банка
  • Снижение модельного риска
  • Единый центр компетенций по задачам MLOps и единая точка сопровождения
  • Возможность внедрять в бизнес-процессы банка модели машинного обучения любой сложности (ансамблевые модели, нейросети и пр.)
  • Оптимизация используемых для моделирования вычислительных ресурсов
  • Повышение производительности задач машинного обучения за счет гибкого распределения ресурсов платформы
  • Существенное сокращение времени, необходимого для создания новому моделисту рабочего места

В чем уникальность проекта для рынка?

Это одна из первых на российском банковском рынке промышленных общебанковских платформ моделирования на принципах MLOps, позволяющая:

  • бесшовно внедрять модели машинного обучения в бизнес-процессы; (внедрение модели занимает несколько минут, раньше – несколько месяцев);
  • настраивать под команды разработчиков моделей индивидуальное программное окружение;
  • гибко распределять вычислительные ресурсы;
  • версионировать эксперименты, скрипты моделей и данные для разработки моделей.

Как проходило внедрение?

Платформа реализована в очень короткие сроки: от старта проекта до ввода среды применения моделей в промышленную эксплуатацию прошло чуть меньше года. В составе проекте работала распределенная совместная команда. Ключевые заказчики, архитекторы и управленческий состав команды находились в Москве, производственные команды находились в Новосибирске, Саратове, Воронеже и Нижнем Новгороде.

В чем заключаются главные особенности платформы?

В основе платформы лежат open source продукты компании Databricks и других лидеров интеграции данных, моделей и процессов. Гибкость и масштабируемость платформы обеспечиваются за счет «контейнеров» системы Kubernetes, на которой реализована промышленная платформа банка.

Архитектура платформы IRIS включает в себя развернутый контур разработки и контур применения моделей: разработка ведется в отдельном окружении, при этом прошедшие тестирование модели могут быть переданы в эксплуатацию в любой момент практически без ручных операций. Важная особенность платформы — возможность бесшовного внедрения модели в среду применения. Раньше на внедрение разработанных моделей ML уходили месяцы, приходилось, например, перепрограммировать модель в другой системе. Концепция MLOps предполагает внедрение моделей любой сложности буквально несколькими кликами мыши.

Промышленная MLOps-платформа IRIS развернута в масштабах всего банка для работы одновременно нескольких команд разработчиков. Она позволяет настраивать различное программное окружение под каждую команду. Вычислительные ресурсы гибко перераспределяются между командами разработчиков в зависимости от потребности. Специалисты могут оперировать различными технологическими стеками, применять различные языки программирования, переиспользовать настроенные интеграции с системами и подключенные источники данных. Подключение нового разработчика к платформе занимает не более 1 дня. Такой подход становится конкурентным преимуществом для привлечения дата-сайентистов, разработчиков, инженеров, которые на рынке в дефиците.

Среда применения моделей введена в промышленную эксплуатацию и интегрирована с кредитными конвейерами всех бизнес-линий — розничного бизнеса, малого и среднего бизнеса, а также крупного бизнеса - для возможности внедрения ML-моделей в этих сегментах по новой технологии. Технология позволяет разрабатывать и внедрять модели машинного обучения любой сложности – от логистической регрессии до градиентного бустинга и нейросетей.

С какими сложностями пришлось столкнуться?

Одним из основных вызовов проекта была интеграция большого количества внедряемых open source компонентов в облачной среде в единую систему разработки и эксплуатации моделей машинного обучения с учетом высоких стандартов требований архитектуры и эксплуатации банка, по надежности, доступности и оптимизации серверных мощностей. 

Также вызовом для проекта была необходимость учета и унификации различных требований большого количества моделистов банка по количеству библиотек, методов машинного обучения, используемых данных и пр.

Как можно оценить первые результаты?

На данный момент платформа уже интегрирована со всеми системами принятия решения (4 конвейера). Сейчас активно идет миграция банковских моделей и команд разработчиков. На контуре уже работают представители 6 различных data-science подразделений.

Платформа признана целевой, до конца 2022 года на нее планируется перевести всех разработчиков моделей и все модели Банка «Открытие».

Голосовать.png


900
Предметная область
Отрасль
Управление