← Вернуться к списку

CDC-решение - корпоративный стандарт для репликации и миграции данных

  • Руководитель проекта со стороны заказчика

    Владимир Зубков

    Россельхозбанк

    Архитектор департамента больших данных

  • Категория

  • Номинация

  • Цели

    Общая цель: импортозамещение инструментов обмена данными в контексте постепенного импортозамещения использовавшихся ОС, СУБД и CDC-средств.

    Задачи в рамках общей цели:

    • Обеспечить универсальность - поддержку существующих и перспективных источников и приемников данных (Oracle, PostgreSQL, Greenplum, Hadoop, S3, Iceberg, Tarantool, Kafka), возможность репликации данных между разными СУБД

    • Минимизировать нагрузку на источники и приёмники данных

    • Сделать акцент на удобстве - в простоте разработки, администрирования и сопровождения решения

  • Сроки выполнения

    январь, 2025 — сентябрь, 2025
  • Год завершения проекта

    2025

  • Масштаб проекта

    40000 человеко-часов
  • Результаты

    1. Бизнес-эффект от внедрения решения заключается в существенном снижении срока реализации инфраструктурных проектов и многократном сокращении времени на разработку. То, что раньше могло делаться месяцами, теперь сводится к часам

    2. РСХБ резко снизил нагрузку на источники данных благодаря подходу к процессу репликации, при котором выбранное банком решение не использует SQL-запросы к исходным базам данных и не требует создания репликационных слотов в PostgreSQL, что исключает риски снижения производительности основных систем

    3. Решение Датафлот Репликация было принято в стек технологий РСХБ и согласовано как стандарт для задач CDC, как при импортозамещении существующих решений в банке, так и при использовании в новых информационных системах

    4. Информационные системы, использующие решение в результате выполнения проекта: автоматизированная банковская система, система сопровождения операций на финансовых рынках, оперативное хранилище данных

  • Уникальность проекта

    • Коробочное решение Датафлот Репликация, с учетом проведенных доработок, позволило закрыть все необходимые в контексте импортозамещения ОС и СУБД задачи Россельхозбанка по репликации и миграции данных и стало корпоративным стандартом

    • Проект обеспечил возможность развития и масштабирования задач миграции и репликации данных заинтересованными бизнес-подразделениями в режиме самообслуживания, без привлечения технических специалистов

    • Решение создаёт фактически нулевую (менее 1%) дополнительную нагрузку на ИТ-системы, что избавило от необходимости дорогостоящей закупки дополнительных ядер для базы данных источника. При этом оно может работать как в режиме времени, близком к реальному, так и в пакетном

  • Использованное ПО

    Решение для репликации транзакционных данных Датафлот Репликация (разработчик: компания «Датафлот»). Дополнительного ПО не потребовалось.

  • Решение из каталога Global CIO

    В проекте не используются решения из каталога Global CIO

  • Сложность реализации

    • Россельхозбанк – системообразующий государственный банк с широкой филиальной сетью. Информационные системы банка характеризуются большими потоками и объемами данных с высокой нагрузкой в режиме 24/7. Имеется много разных типов систем на разных СУБД (различные комбинации систем источников-приемников)

    • Сроки внедрения проекта были сжаты и определялись жестким циклом импортозамещения внутри банка

    • Сложность проекта заключалась также в обеспечении горячей замены CDC-решения в условиях параллельной работы legacy и импортозамещенной СУБД

    • Внедрение решения потребовало внесения в него ряда доработок для оптимизации производительности и учета особенностей используемых информационных систем и данных, которые позволили:

      • значительно сократить время начальной загрузки для больших объемов данных с использованием разнообразных техник многопоточной обработки

      • оптимизировать время загрузки и скорость парсинга журналов транзакций

      • учесть особенности данных и метаданных в интегрируемых системах

  • Описание

    Бизнес-процесс онлайн-репликации (см. иллюстрацию в дополнительных материалах) включает в себя множество потоков данных между гетерогенными источниками и получателями: базами данных, хранилищами данных, платформами обмена сообщениями. Источниками данных являются СУБД Oracle и PostgreSQL.

    Датафлот Репликация анализирует лог-файлы, поэтому эти файлы периодически выгружаются на отдельный сервер, на котором логи разбираются для формирования репликационных записей и транзакций для целевых систем. Такая процедура предназначена для ограничения доступа непосредственно к серверам СУБД, и, с другой стороны, разбор логов исходных СУБД ведётся с абсолютным отсутствием нагрузки на сервера СУБД.

    Одним из преимуществ механизма Датафлот Репликация является реализация слоя извлечения данных, передачи данных на целевой сервер и загрузку данных в целевую систему в единой системе, без применения промежуточных решений, таких как Kafka. Это делает систему более надёжной и снижает нагрузку на администрирование системы.

    Получателями данных в различных конфигурациях являются системы разного класса:

    • СУБД – Oracle, PostgreSQL

    • Хранилище данных Greenplum

    • Файлы на локальном хранилище

    • Сообщения, передаваемые через платформу обмена сообщениями Kafka

    • Данные на объектном хранилище S3 в открытых форматах Parquet и Iceberg

    • Данные в Hadoop (HDFS) в открытых форматах

    Внедренное решение доставляет данные в хранилища и мигрирует данные между различными СУБД, в том числе контролирует процессы переноса информации из Oracle в PostgreSQL и обратно, а также в хранилища S3 и Hadoop и системы потоковой обработки данных Apache Kafka. Репликация данных из БД-источника, создающим 3ТБ журналов в сутки, происходит с отставанием не более 5 минут.

    Успешная реализация проекта CDC-репликации стала возможна благодаря профессиональной команде РСХБ-Интех, которая обеспечила высокое качество технической поддержки и оперативное сопровождение внедрения отечественного решения Датафлот Репликация. Специалисты DIS Group сыграли важную роль в адаптации системы под специфические требования банковской инфраструктуры.

  • География проекта

    Филиальная сеть банка – более 1400 офисов по всей стране.

  • Дополнительные презентации

Комментировать 21

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Сергей Федечкин

    Сергей Федечкин

    ВТБ, ПАО

    Директор по управлению проектами

    Добрый день! Подскажите, пожалуйста, по каким критериям было выбрано российское решение для импортозамещения CDC-решения? Что было первично – функциональность решения или возможность быстрого встраивания в ИТ-ландшафт?
    Ответить
    • Владимир Зубков

      Владимир Зубков

      Россельхозбанк

      Архитектор департамента больших данных

      Доброго времени.Отечественное CDC-решение мы выбирали по стандартной для проектов импортозамещения процедуре. Мы рассматриваем совокупность критериев, в том числе по функционалу, интеграции, показателям производительности и, что не менее важно, возможности оперативной доработки решения вендорам под наши требования.
      Ответить
      • Сергей Федечкин

        Сергей Федечкин

        ВТБ, ПАО

        Директор по управлению проектами

        Спасибо большое за развернутый ответ про критерии выбора. Уточните, пожалуйста, какая была главная бизнес-задача этого проекта? В заявке информация есть, но хотелось бы получить предметную выжимку для лучшего понимания позиционирования этого проекта.
        Ответить
        • Владимир Зубков

          Владимир Зубков

          Россельхозбанк

          Архитектор департамента больших данных

          Спасибо за Ваш интерес к проекту. Основная задача - Импортозамещение CDC решений на базе GoldenGate и Debezium.Возможность миграции и репликации между различными типами СУБД, универсальность для различных типов реляционных и нереляционных ХД, экономия на разработке и железе итп - следствие выбора Dataflot.
          Ответить
          • Сергей Федечкин

            Сергей Федечкин

            ВТБ, ПАО

            Директор по управлению проектами

            И как следствие выбора Dataflow Вы пишете, что проект был уникален с точки зрения того, что ИТ-поставщик имел непосредственное влияние на дорожную карту развития российского продукта. В чем именно это помогло в вашем случае?
            Ответить
  • Сергей Федечкин

    Сергей Федечкин

    ВТБ, ПАО

    Директор по управлению проектами

    На решение каких конкретных бизнес-задач был направлен проект импортозамещения CDC-решения в РСХБ? Понятно, что импортозамещение – это не просто замена западного решения на российское. По крайней мере, надеюсь, что здесь это так.
    Ответить
    • Владимир Зубков

      Владимир Зубков

      Россельхозбанк

      Архитектор департамента больших данных

      Наш проект помог, в частности, добиться решения важной бизнес-задачи развития и масштабирования сценариев миграции и репликации данных заинтересованными бизнес-подразделениями в режиме самообслуживания с минимальными трудозатратами. В результате банк экономит много времени и ресурсов на такого рода задачи. Кроме этого, упрощается поддержка миграции и репликации, т.к. для различных задач используется единое универсальное решение.
      Ответить
      • Сергей Федечкин

        Сергей Федечкин

        ВТБ, ПАО

        Директор по управлению проектами

        Спасибо большое за подробный ответ о бизнес-задачах. Довольно масштабный проект получился – и по длительности, и по человеко-часам. Чем был вызван такой большой объем работ? Казалось бы, речь идет о решении с типовым функционалом, которое используется для типовых задач репликации.
        Ответить
        • Владимир Зубков

          Владимир Зубков

          Россельхозбанк

          Архитектор департамента больших данных

          Основные трудозатраты это полноценное тестирование различных комбинаций источников и приёмников, в том числе нагрузочное тестирование на промышленных объёмах данных.Сама "разработка" - настройка репликации занимала незначительный процент времени.
          Ответить
          • Сергей Федечкин

            Сергей Федечкин

            ВТБ, ПАО

            Директор по управлению проектами

            Вы пишете, что дополнительного ПО к выбранному решению Датафлот Репликация не потребовалось в ходе реализации проекта. Означает ли это, что все программное окружение уже было замещено к моменту внедрения?
            Ответить
            • Владимир Зубков

              Владимир Зубков

              Россельхозбанк

              Архитектор департамента больших данных

              Имелось в виду, что для работы самого Dataflot не требуется сторонее ПО. Всё необходимое входит в состав дистрибутива, который устанавливается простым копированием.
              Ответить
  • Сергей Федечкин

    Сергей Федечкин

    ВТБ, ПАО

    Директор по управлению проектами

    Хотелось бы узнать, какие решения вы принципиально не рассматривали с точки зрения реализации проекта – чтобы не тратить время на сравнение и тестирование. Понятно, что рассматриваемое решение должно быть в реестре Минцифры. А с технической точки зрения?
    Ответить
    • Владимир Зубков

      Владимир Зубков

      Россельхозбанк

      Архитектор департамента больших данных

      Да, ключевым моментом было наличие решения в реестре Минцифры. С технической точки зрения мы не рассматривали следующие решения:1.  Не поддерживающие CDC-репликацию в режиме, приближенном к реальному времени (NRT);2.  Использующие слот репликации PostgreSQL;3. Требующие хардкода;4. Решения, имеющие ограниченный набор СУБД источников/приёмников.
      Ответить
      • Сергей Федечкин

        Сергей Федечкин

        ВТБ, ПАО

        Директор по управлению проектами

        Спасибо за технические критерии для отсечения. Скажите, пожалуйста, были ли какие-то неожиданные моменты в ходе или после реализации этого проекта? Хочется понять, на что можно рассчитывать при повторении аналогичных подходов. Как положительных, так и отрицательных.
        Ответить
        • Владимир Зубков

          Владимир Зубков

          Россельхозбанк

          Архитектор департамента больших данных

          Мы начали проект осознавая риски нового продукта, поэтому, как я ранее и писал, много времени было уделено тестированию в части надёжности и производительности. На данный момент, решение уже избавилось от "детских болезней", по крайней мере на использующихся нами связках источников-приёмников.Сейчас мы перешли к следующему этапу - использованию Dataflot для загрузки в Iceberg таблицы. Подготовили множество test-case`ов. Будут ли там неожиданности? Уверен, что будут, но и уверен, что мы решим их вместе с Вендором! :)
          Ответить
          • Сергей Федечкин

            Сергей Федечкин

            ВТБ, ПАО

            Директор по управлению проектами

            Вижу, что в проекте были задействованы два поставщика. Кто из них занимался координацией работы с вендором выбранного решения? Ведь, судя по описанию проекта, доработок было немало, и они требовали плотного вовлечения.
            Ответить
            • Владимир Зубков

              Владимир Зубков

              Россельхозбанк

              Архитектор департамента больших данных

              Полагаю, не является тайной, что Dataflot стал дочерней компанией DisGroup. На этапах пилотирования решений я непосредственно общаюсь и решаю вопросы с архитекторами и тимлидами разработки. После перевода решения в промышленную эксплуатацию, возникающие вопросы штатно решают уже специалисты эксплуатации Банка и технической поддержки DIS.
              Ответить
  • Дмитрий Турчановский

    Дмитрий Турчановский

    ЗН Цифра

    Заместитель Генерального директора по ИТ

    Поздравляю с успешным и интересным проектом!
    Ответить
    • Владимир Зубков

      Владимир Зубков

      Россельхозбанк

      Архитектор департамента больших данных

      Спасибо. Опыт проекта очень востребован, судя по тому, сколько коллег подходят ко мне с вопросами о нашем опыте на различных мероприятиях... :)
      Ответить
      • Сергей Федечкин

        Сергей Федечкин

        ВТБ, ПАО

        Директор по управлению проектами

        Вы отметили, что одной из ключевых задач была «поддержка существующих и перспективных источников и приемников данных». Учитывая высокие темпы импортозамещения и появление новых отечественных СУБД и платформ (например, Postgres Pro, Тarantool, ClickHouse), как вы оцениваете готовность решения «Датафлот Репликация» к быстрому включению таких новых систем в контур репликации?
        Ответить
        • Владимир Зубков

          Владимир Зубков

          Россельхозбанк

          Архитектор департамента больших данных

          Здесь вопрос, скорее к DIS-group по их партнёрству с производителями ПО. Могу написать со своей стороны.У нас есть внедрённое и отлаженное решение для PostgresPro, при обновлении версии СУБД мы заранее запрашиваем подтверждение её совместимости у Dataflot. Мы проводили пилот для GreenPlume/GreenGage как источника/приёмника данных, но пока эта комбинация у нас не востребована. У нас есть трёхсторонняя договорённость между Банком, DIS и VK о совместной разработке коннектора Dataflot-Tarantool, но эти работы пока отложены в связи с более высоким приоритетом внедрения LakeHouse с Iceberg. Полагаю, что это решение мы начнём пилотировать ближе к лету. По Yandex - в нашем контуре ClickHouse не используется, поэтому про него ничего не скажу...На крайний случай, можно из Dataflot`а выгружать сообщения в Kafka... :)В целом, мы ожидаем, что Dataflot обеспечит нам все комбинации репликации :)
          Ответить
  • Заказчик

    Россельхозбанк

  • ИТ-поставщики

    • DIS Group

    • РСХБ.Цифра

Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.