CDC-решение - корпоративный стандарт для репликации и миграции данных

Заказчик:
Россельхозбанк
Руководитель проекта со стороны заказчика
Поставщик
DIS Group
Год завершения проекта
2025
Сроки выполнения проекта
январь, 2025 — сентябрь, 2025
Масштаб проекта
40000 человеко-часов
Цели

Общая цель: импортозамещение инструментов обмена данными в контексте постепенного импортозамещения использовавшихся ОС, СУБД и CDC-средств.

Задачи в рамках общей цели:

  • Обеспечить универсальность - поддержку существующих и перспективных источников и приемников данных (Oracle, PostgreSQL, Greenplum, Hadoop, S3, Iceberg, Tarantool/Picodata, Kafka), возможность репликации данных между разными СУБД

  • Минимизировать нагрузку на источники и приёмники данных

  • Сделать акцент на удобстве - в простоте разработки, администрирования и сопровождения решения

  1. Бизнес-эффект от внедрения решения заключается в существенном снижении срока реализации инфраструктурных проектов и многократном сокращении времени на разработку. То, что раньше могло делаться месяцами, теперь сводится к часам

  2. РСХБ резко снизил нагрузку на источники данных благодаря подходу к процессу репликации, при котором выбранное банком решение не использует SQL-запросы к исходным базам данных и не требует создания репликационных слотов в PostgreSQL, что исключает риски снижения производительности основных систем

  3. Решение Датафлот Репликация было принято в стек технологий РСХБ и согласовано как стандарт для задач CDC, как при импортозамещении существующих решений в банке, так и при использовании в новых информационных системах

  4. Информационные системы, использующие решение в результате выполнения проекта: автоматизированная банковская система, система сопровождения операций на финансовых рынках, оперативное хранилище данных

Уникальность проекта

  • Коробочное решение Датафлот Репликация, с учетом проведенных доработок, позволило закрыть все необходимые в контексте импортозамещения ОС и СУБД задачи Россельхозбанка по репликации и миграции данных и стало корпоративным стандартом

  • Проект обеспечил возможность развития и масштабирования задач миграции и репликации данных заинтересованными бизнес-подразделениями в режиме самообслуживания, без привлечения технических специалистов

  • Решение создаёт фактически нулевую (менее 1%) дополнительную нагрузку на ИТ-системы, что избавило от необходимости дорогостоящей закупки дополнительных ядер для базы данных источника. При этом оно может работать как в режиме времени, близком к реальному, так и в пакетном

Использованное ПО

Решение для репликации транзакционных данных Датафлот Репликация (разработчик: компания «Датафлот»). Дополнительного ПО не потребовалось.

Сложность реализации
  • Россельхозбанк – системообразующий государственный банк с широкой филиальной сетью. Информационные системы банка характеризуются большими потоками и объемами данных с высокой нагрузкой в режиме 24/7. Имеется много разных типов систем на разных СУБД (различные комбинации систем источников-приемников)

  • Сроки внедрения проекта были сжаты и определялись жестким циклом импортозамещения внутри банка

  • Сложность проекта заключалась также в обеспечении горячей замены CDC-решения в условиях параллельной работы legacy и импортозамещенной СУБД

  • Внедрение решения потребовало внесения в него ряда доработок для оптимизации производительности и учета особенностей используемых информационных систем и данных, которые позволили:

    • значительно сократить время начальной загрузки для больших объемов данных с использованием разнообразных техник многопоточной обработки

    • оптимизировать время загрузки и скорость парсинга журналов транзакций

    • учесть особенности данных и метаданных в интегрируемых системах

Описание проекта

Бизнес-процесс онлайн-репликации (см. иллюстрацию в дополнительных материалах) включает в себя множество потоков данных между гетерогенными источниками и получателями: базами данных, хранилищами данных, платформами обмена сообщениями. Источниками данных являются СУБД Oracle и PostgreSQL.

Датафлот Репликация анализирует лог-файлы, поэтому эти файлы периодически выгружаются на отдельный сервер, на котором логи разбираются для формирования репликационных записей и транзакций для целевых систем. Такая процедура предназначена для ограничения доступа непосредственно к серверам СУБД, и, с другой стороны, разбор логов исходных СУБД ведётся с абсолютным отсутствием нагрузки на сервера СУБД.

Одним из преимуществ механизма Датафлот Репликация является реализация слоя извлечения данных, передачи данных на целевой сервер и загрузку данных в целевую систему в единой системе, без применения промежуточных решений, таких как Kafka. Это делает систему более надёжной и снижает нагрузку на администрирование системы.

Получателями данных в различных конфигурациях являются системы разного класса:

  • СУБД – Oracle, PostgreSQL

  • Хранилище данных Greenplum

  • Файлы на локальном хранилище

  • Сообщения, передаваемые через платформу обмена сообщениями Kafka

  • Данные на объектном хранилище S3 в открытых форматах Parquet и Iceberg

  • Данные в Hadoop (HDFS) в открытых форматах

Внедренное решение доставляет данные в хранилища и мигрирует данные между различными СУБД, в том числе контролирует процессы переноса информации из Oracle в PostgreSQL и обратно, а также в хранилища S3 и Hadoop и системы потоковой обработки данных Apache Kafka. Репликация данных из БД-источника, создающим 3ТБ журналов в сутки, происходит с отставанием не более 5 минут.

Успешная реализация проекта CDC-репликации стала возможна благодаря профессиональной команде РСХБ-Интех, которая обеспечила высокое качество технической поддержки и оперативное сопровождение внедрения отечественного решения Датафлот Репликация. Специалисты DIS Group сыграли важную роль в адаптации системы под специфические требования банковской инфраструктуры.

География проекта

Филиальная сеть банка – более 1400 офисов по всей стране.

Дополнительные презентации:
РСХБ Датафлот Репликация архитектура.png

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Год
Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.