CDC-решение - корпоративный стандарт для репликации и миграции данных
-
Руководитель проекта со стороны заказчика
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
-
Категория
-
Номинация
-
Цели
Общая цель: импортозамещение инструментов обмена данными в контексте постепенного импортозамещения использовавшихся ОС, СУБД и CDC-средств.
Задачи в рамках общей цели:
-
Обеспечить универсальность - поддержку существующих и перспективных источников и приемников данных (Oracle, PostgreSQL, Greenplum, Hadoop, S3, Iceberg, Tarantool, Kafka), возможность репликации данных между разными СУБД
-
Минимизировать нагрузку на источники и приёмники данных
-
Сделать акцент на удобстве - в простоте разработки, администрирования и сопровождения решения
-
-
Сроки выполнения
январь, 2025 — сентябрь, 2025 -
Год завершения проекта
2025
-
Масштаб проекта
40000 человеко-часов -
Результаты
-
Бизнес-эффект от внедрения решения заключается в существенном снижении срока реализации инфраструктурных проектов и многократном сокращении времени на разработку. То, что раньше могло делаться месяцами, теперь сводится к часам
-
РСХБ резко снизил нагрузку на источники данных благодаря подходу к процессу репликации, при котором выбранное банком решение не использует SQL-запросы к исходным базам данных и не требует создания репликационных слотов в PostgreSQL, что исключает риски снижения производительности основных систем
-
Решение Датафлот Репликация было принято в стек технологий РСХБ и согласовано как стандарт для задач CDC, как при импортозамещении существующих решений в банке, так и при использовании в новых информационных системах
-
Информационные системы, использующие решение в результате выполнения проекта: автоматизированная банковская система, система сопровождения операций на финансовых рынках, оперативное хранилище данных
-
-
Уникальность проекта
-
Коробочное решение Датафлот Репликация, с учетом проведенных доработок, позволило закрыть все необходимые в контексте импортозамещения ОС и СУБД задачи Россельхозбанка по репликации и миграции данных и стало корпоративным стандартом
-
Проект обеспечил возможность развития и масштабирования задач миграции и репликации данных заинтересованными бизнес-подразделениями в режиме самообслуживания, без привлечения технических специалистов
-
Решение создаёт фактически нулевую (менее 1%) дополнительную нагрузку на ИТ-системы, что избавило от необходимости дорогостоящей закупки дополнительных ядер для базы данных источника. При этом оно может работать как в режиме времени, близком к реальному, так и в пакетном
-
-
Использованное ПО
Решение для репликации транзакционных данных Датафлот Репликация (разработчик: компания «Датафлот»). Дополнительного ПО не потребовалось.
-
Решение из каталога Global CIO
В проекте не используются решения из каталога Global CIO
-
Сложность реализации
-
Россельхозбанк – системообразующий государственный банк с широкой филиальной сетью. Информационные системы банка характеризуются большими потоками и объемами данных с высокой нагрузкой в режиме 24/7. Имеется много разных типов систем на разных СУБД (различные комбинации систем источников-приемников)
-
Сроки внедрения проекта были сжаты и определялись жестким циклом импортозамещения внутри банка
-
Сложность проекта заключалась также в обеспечении горячей замены CDC-решения в условиях параллельной работы legacy и импортозамещенной СУБД
-
Внедрение решения потребовало внесения в него ряда доработок для оптимизации производительности и учета особенностей используемых информационных систем и данных, которые позволили:
-
значительно сократить время начальной загрузки для больших объемов данных с использованием разнообразных техник многопоточной обработки
-
оптимизировать время загрузки и скорость парсинга журналов транзакций
-
учесть особенности данных и метаданных в интегрируемых системах
-
-
-
Описание
Бизнес-процесс онлайн-репликации (см. иллюстрацию в дополнительных материалах) включает в себя множество потоков данных между гетерогенными источниками и получателями: базами данных, хранилищами данных, платформами обмена сообщениями. Источниками данных являются СУБД Oracle и PostgreSQL.
Датафлот Репликация анализирует лог-файлы, поэтому эти файлы периодически выгружаются на отдельный сервер, на котором логи разбираются для формирования репликационных записей и транзакций для целевых систем. Такая процедура предназначена для ограничения доступа непосредственно к серверам СУБД, и, с другой стороны, разбор логов исходных СУБД ведётся с абсолютным отсутствием нагрузки на сервера СУБД.
Одним из преимуществ механизма Датафлот Репликация является реализация слоя извлечения данных, передачи данных на целевой сервер и загрузку данных в целевую систему в единой системе, без применения промежуточных решений, таких как Kafka. Это делает систему более надёжной и снижает нагрузку на администрирование системы.
Получателями данных в различных конфигурациях являются системы разного класса:
-
СУБД – Oracle, PostgreSQL
-
Хранилище данных Greenplum
-
Файлы на локальном хранилище
-
Сообщения, передаваемые через платформу обмена сообщениями Kafka
-
Данные на объектном хранилище S3 в открытых форматах Parquet и Iceberg
-
Данные в Hadoop (HDFS) в открытых форматах
Внедренное решение доставляет данные в хранилища и мигрирует данные между различными СУБД, в том числе контролирует процессы переноса информации из Oracle в PostgreSQL и обратно, а также в хранилища S3 и Hadoop и системы потоковой обработки данных Apache Kafka. Репликация данных из БД-источника, создающим 3ТБ журналов в сутки, происходит с отставанием не более 5 минут.
Успешная реализация проекта CDC-репликации стала возможна благодаря профессиональной команде РСХБ-Интех, которая обеспечила высокое качество технической поддержки и оперативное сопровождение внедрения отечественного решения Датафлот Репликация. Специалисты DIS Group сыграли важную роль в адаптации системы под специфические требования банковской инфраструктуры.
-
-
География проекта
Филиальная сеть банка – более 1400 офисов по всей стране.
-
Дополнительные презентации
-
Заказчик
Россельхозбанк
-
ИТ-поставщики
-
DIS Group
-
РСХБ.Цифра
-
Комментировать могут только авторизованные пользователи.
Предлагаем Вам войти в систему или зарегистрироваться.
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Дмитрий Турчановский
ЗН Цифра
Заместитель Генерального директора по ИТ
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных
Сергей Федечкин
ВТБ, ПАО
Директор по управлению проектами
Владимир Зубков
Россельхозбанк
Архитектор департамента больших данных