Сервис Самообслуживания Платформы Данных
- Заказчик:
- ПАО Банк ВТБ
- Руководитель проекта со стороны заказчика
- Поставщик
- ГК «ИННОТЕХ»
- Год завершения проекта
- 2022
- Сроки выполнения проекта
- Февраль, 2022 - Декабрь, 2022
- Масштаб проекта
- 24280 человеко-часов
- Цели
- Ключевые цели проекта:
- Сокращение времени на подготовку продуктовой отчетности Розничного бизнеса, за счет внедрения ускоренного тракта доставки данных. Ускоренный тракт доставки позволяет доставлять данные хранилище с актуальностью t-5 часов от источника.
- Внедрение нового импортозамещенного решения в части доставки данных в хранилище
- Внедрение функционала Лабораторий данных, позволяющих управлять данными, строить совместные прототипы различным подразделениям и готовить Ad-Hoc запросы
Уникальность проекта
1. Решение позволяет обеспечить неограниченное масштабирование потребителей оперативных данных, без создания критической нагрузки на оперативное хранилище банка. 2. Решение позволит получать данные из очереди Kafka с актуальностью до 1 часа, и данные из озера данных с актуальностью до 6 часов. 3. Решение построено на импортонезависимом стеке программных и аппаратных компонент- Проект решает задачи импортозамещения
- Да
- Использованное ПО
- ПО: Arenadata Hadoop, Apache Kafka, Apache Airflow, Apache Spark, Scala, OpenShiftОборудование: ПАК СКАЛА, стандартные сервера виртуализации
- Сложность реализации
- Основные риски реализации, использование новых библиотек и фреймворков, ранее не задействованных. Основным риском реализации функциональности являлось успешное пилотирование новых библиотек и их внедрение в банке. Риски, связанные с внедрением новых библиотек:
- Возникновение непредсказуемых багов и ошибок на критической инфраструктуре
- Потери данных
- Отладка процесса на всех этапах
- Описание проекта
Одной из актуальных проблем бизнеса, является управления данными и время доступности данных в хранилище. Время доступности данных в хранилище – это время от попадания данных в систему – источник (бизнес-системы), до доставки данных в хранилище, во время доставки данных, информация проходит несколько стадий преобразований, чтобы попасть в хранилище в том виде, в котором эти данные можно использовать для построения отчетности или дешбордов. Для наиболее гибкого управления бизнесом необходимо быстро реагировать на изменения клиентской активности. Текущий этап трансформации банковского ландшафта не позволяет получать бизнесу отчетность внутри операционного дня. В результате исследований российского рынка было найдено решение, позволяющее реализовать оперативную доступность данных для пользователей. В рамках текущего года было реализовано ускоренного тракта доставки данных для Розничного бизнеса, позволяющего получать данные в хранилище каждые 4-6 часов. Реализация функционала позволит подразделению Розничного бизнеса готовить несколько отчетов в день по эффективности того или иного банковского продукта, принимать оперативные решения и быстро реагировать на ситуацию на рынке. В совокупности, данный функционал позволит снизить операционные затраты, как внутри банка, так и на неэффективные продукты и предложения, тем самым поднимет количество выданных кредитов и прочих банковских продуктов.
Идея и цели создание сервиса самообслуживания платформы данных была основана на решение вопросов управления и доставки данных, а также вопросов, связанных со скоростью подготовкой различных прототипов, моделей и витрин данных, adhoc аналитикой в хранилище. Основная концепция сервиса – дать пользователям возможность гибко и быстро настраивать отчеты под оперативно меняющиеся реалии рынка при помощи максимально удобного инструмента и соответствующего всем стандартам Информационной Безопасности, принятым в банке. В рамках Сервиса самообслуживания, так же вошел функционал Лабораторий данных, который позволит бизнес подразделениям управлять данными и готовить совместные прототипы витрин и дешбордов.
- География проекта
- Использование функционала предполагается пользователями по всей России, специализирующимися на построении витрин данных, различных аналитических отчетов, отчетности по продуктам, построении различных аналитических прототипов и управлении данными.