Создание корпоративного хранилища данных ПАО «Промсвязьбанк»
- Заказчик:
- ПАО «ПСБ»
- Поставщик
- Arenadata
- Сроки выполнения проекта
- Январь, 2021 - Ноябрь, 2023
- Масштаб проекта
- 250000 человеко-часов
- Цели
- Централизация работы с данными банка;
- построение нового корпоративного хранилища банка и систем Big Data на решениях российского вендора;
- импортозамещение Legacy хранилищ данных с Oracle и MS SQL Server на ПО из ЕРРП;
- формирование сквозных методологий расчёта данных и обеспечение процессов мониторинга происхождения данных;
- расширение используемых источников данных, включая интеграцию и централизацию внешних данных;
- мониторинг и повышение качества данных;
- снижение затрат на инфраструктуру за счёт использования разнотемпературного хранилища;
- снижение стоимости владения данными;
- построение системы защищённых данных (ДИБ).
- Результаты
ИС «ЕХД ПСБ» зарегистрирована в ЕРРП (номер записи реестра №19713).
Разработанное аналитическое ядро системы включает интеграцию со всеми ключевыми ИС банка, а также внешними системами (более 120 методов / более 50 реестров). Разработана собственная система интеграции данных Data Collector, включающая потоковую и пакетную загрузку данных.
Система контролей доступов и мониторинг действий пользователей
в ЕХД позволяет полностью разграничить доступ к нужным данным и предотвратить возможные утечки.
В рамках реализации проекта построения ЕХД разработаны модели для анализа и выявления рисков ГОЗ (использование внутренних данных банка и внешних данных о ФЛ/ЮЛ). Исключён риск несанкционированного доступа к данным хранилища и Big Data как внутри банка, так и в результате кибератак.
К 30 сентября 2023 года достигнуто улучшение клиентских данных ФЛ в рамках каналов: зарплатные клиенты и сети — на 56,1% (в соответствии с согласованным стандартом).
Использование расширенных массивов данных ЕХД уже позволило банку решать новые аналитические задачи и достигать видимых результатов. Так, ad-hoc-анализ используется в задачах управления доходностью клиентов, привлечения и удержания, оценки банкротств, проблемной задолженности, эффективности взысканий.
Специалисты банка получили доступ к исходным данным организации в расширенном составе, к одной базе (ЕХД) и новым данным из внешних реестров для учёта в аналитических задачах бизнес-линий. ПСБ теперь обладает возможностью оперативно реагировать на отклонения в использовании онлайн-площадок, мобильных приложениях, интернет-банке и устранять возникшие проблемы.
Уникальность проекта
Проект реализует банк «ПСБ» — первый системно-значимый банк в Республике Крым и Севастополе, ЛНР и ДНР: операционная сеть включает более 160 отделений связи, а клиентская база — около 3 млн физлиц и свыше 17 тыс. юрлиц.
Реализация проекта направлена на поддержку бизнес-инициатив банка в соответствии со стратегическими планами: как в части эффективности работы бизнеса, так и в части надёжности и сохранности данных.
Проект решает задачи импортозамещения и направлен на централизацию задач отчётности и аналитики в банке.
Проектирование, разработка и развитие системы ведутся с учётом требований информационной безопасности банка, регуляторов, а также Минобороны РФ к работе с чувствительными данными оборонно-промышленного комплекса (ОПК), гособоронзаказа (ГОЗ) и физлиц.
- Проект решает задачи импортозамещения
- Да
- Использованное ПО
Arenadata DB (ADB) — аналитическая, распределённая СУБД, построенная на MPP-системе с открытым исходным кодом Greenplum.
Arenadata Hadoop (ADH) — полноценный дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.
- Сложность реализации
В 2021-2023 годах несколько раз значимо менялся контекст внешней среды, что оказало значимое влияние на сроки, приоритеты и объём задач Программы управления данными ПСБ. Среди них:
- слияния и поглощения: объединение в контур банка новых банковских структур (СвязьБанк, РоскосмосБанк. МосОблБанк, МИнБанк и пр.) повлияло на объёмы и качество обрабатываемых данных;
- новые территории: открытие банковских отделений в Крыму, Севастополе, ЛНР и ДНР привело к сокращению доступных инфраструктурных мощностей, перераспределению резервов оборудования в проекты новых территорий;
- санкции, увеличение числа кибератак на банк, ужесточение требований ДИБ к архитектуре систем и ПО: запрет ДИБ на использование любых компонент и библиотек, выпущенных после 24 февраля 2022 года, необходимость закупки дополнительного оборудования и доработки ПО в соответствии с новыми требованиями и ГОСТ, блокировки работ до перевода отечественного, в т. ч. реестрового ПО, на работу с разрешёнными ОС, перевод уже разработанного функционала на отечественную инфраструктуру и пр.;
- ужесточённая директива Минцифры по импортозамещению. Использование реестрового ПО и российского оборудования, внешних ресурсов разработки при тех же сроках реализации задач импортозамещения;
- расширение работы с новыми небанковскими сервисами (гостиницы, стройки, учебные платформы, маркетплейсы и пр.) —– новые интеграции и новые сайзинги оборудования, новый функционал в ЕХД;
- требования с разъяснениями ФСТЭК и Минобороны России в части работы с чувствительной информацией: проектирование выделения части ХД для ОПК в отдельный сегмент, с задачей дальнейшей его аттестация по приказу.
- Описание проекта
Предпосылки проекта
В 2019 году ПАО «ПСБ» утвердил пятилетнюю стратегию, основными ориентирами которой в части обеспечения стратегических целей банка стали:
- поддержка статуса надёжного и безопасного отраслевого банка страны;
- рост клиентской базы физических и юридических лиц (в том числе предоставление клиентам максимально персонифицированных предложений);
- обеспечение высокого банковского сервиса как в коммерческом сегменте, так и для отраслевого направления;
- поддержка госорганов необходимыми аналитическими данными.
Для того чтобы поддерживать эти инициативы банка в части работы с данными, была разработана концепция управления данными ПСБ, включившая в себя анализ таких стратегических и внутренних факторов, как:
- стратегия развития ПАО «Промсвязьбанк»;
- приказ Минкомсвязи РФ от 20.09.2018 №486 «Об импортозамещении»;
- внедрение национальной программы «Цифровая экономика РФ»;
- реализация задач цифровой трансформации банка;
- определение процессов управления корпоративными данными;
- повышение уровня управления качеством данных;
- необходимость обновления устаревающего технологического стека и унаследованных информационных систем (Legacy);
- постоянный рост количества данных и мощностей;
- высокая стоимость владения данными (ТСО), требующая снижения;
- отсутствие гибкости в предоставлении бизнесу детализированных данных;
- ограниченный доступ и высокая потребность в расширении работы с внешними источниками данных.
Обобщив перечисленные факторы, в декабре 2020 года команда ПСБ запустила программную инициативу, направленную на реализацию первого проекта в рамках «Программы управления данными» — Единое хранилище данных и Big Data (ЕХД и Big Data).
Выбор технологического партнёра
Для реализации задачи по построению Единого хранилища данных была выбрана распределённая СУБД Arenadata DB от российского вендора Arenadata. Выбор был сделан в рамках сравнительного анализа, проведённого в ходе технических апробаций.
Тестирование проводилось:
- на испытательных стендах с сопоставимым оборудованием;
- на едином наборе исходных данных, характерном для банковского сектора (специально разработанная модель данных);
- посредством выполнения множества аналитических запросов, имитирующих типичную нагрузку для хранилищ данных.
Специалисты ПСБ сравнивали производительность СУБД Arenadata DB и других СУБД, уже используемых в банке для аналогичных задач (Postgres Pro, Microsoft SQL Server, Oracle Database). Анализировалось поведение таких запросов, как:
- расчёт остатков в валюте счёта и рублёвом эквиваленте по всем счетам (100 тыс.) за два года на каждую дату;
- расчёт количества строк агрегированных финансовых показателей (суммарный остаток, кредитный лимит, сумма задолженности) на каждую календарную дату за два года в разрезе каналов поступления заявки и программ лояльности;
- расчёт агрегированных финансовых показателей (суммарный остаток, кредитный лимит, сумма задолженности) на каждую календарную дату за два года в разрезе продуктов;
- расчёт суммарного количества пересечений периода актуальности счетов с остатками;
- суммарное количество пересечений периода актуальности счетов с остатками и изменениями счёта;
- и другие.
По итогам тестирования Arenadata DB показала максимальную производительность работы. Кроме того, на момент проведения тестирования, Arenadata DB была единственным ПО, включённым в ЕРРП Минкомсвязи РФ и подходящим для построения аналитических хранилищ данных.
Arenadata DB может быть интегрирована со сторонними ETL-инструментами, совместима с CASE-средствами моделирования данных (PowerDesigner), поддерживает технологии Big Data. Что было немаловажно для ПСБ, Arenadata предоставляет своим заказчикам услуги технической поддержки на русском языке.
В 2021 году технологии Arenadata были утверждены в ПСБ в качестве технологического стандарта для построения ЕХД и Big Data. А в 2023 году с компанией Arenadata заключён договор об архитектурном надзоре.
Единое хранилище данных
К 2023 году была разработана новая архитектура управления данными, отвечающая современным потребностям ПСБ. В ней настроены системы безопасности/контроля доступов и ролевые модели, позволяющие разграничить доступ к нужным данным и предотвратить возможные утечки.
С начала 2023 года с продукционным ЕХД ПСБ работают аналитики различных подразделений банка: ЦОР ГОЗ, РБ, цифровой бизнес, маркетинг, взыскание задолженности и пр.
В состав ключевых компонентов хранилища данных вошла собственная разработка банка — PSB Data Collector, обеспечивающая централизованную интеграцию данных из приёмников и их передачу в контур хранилища. В настоящий момент она обслуживает более 20 систем банка. В дальнейшем планируется интеграция Data Collector и Arenadata Streaming (ADS) — масштабируемой отказоустойчивой системы для потоковой обработки данных в режиме реального времени, построенной на базе Apache Kafka и Apache Nifi.
Также ПСБ строит озеро данных на базе Arenadata Hadoop (ADH) — полноценного дистрибутива на базе Apache Hadoop, предназначенного для хранения и обработки слабоструктурированных и неструктурированных данных.
Все процессы, происходящие в хранилище, включены в систему мониторинга — ещё одну собственную разработку команды ПСБ: мониторинг качества данных, который включает в себя как технические, так и бизнес-проверки. На основе мониторинга в операционный блок банка выдаются рекомендации и бизнес-результаты по работе с данными.
В настоящий момент также ведётся проработка архитектуры для физического разделения чувствительных данных в соответствии с требованиями и разъяснениями ФСТЭК и Минобороны России.
- География проекта
Россия, новые территории (Крым, ЛНР, ДНР)