• 630

    Заявлено проектов

  • 360

    Опубликовано проектов

  • 2

    дня до начала голосования

Голосование стартует 10 ноября


Новые заявки не принимаются. Проекты, которые еще находятся на верификации, будут публиковаться после проверки и утверждения до 25 ноября. После этой даты публикация невозможна.
10-го и 11-го ноября будет продолжаться распределение проектов по номинациям, чтобы обеспечить равномерную конкуренцию. 

← Вернуться к списку

CDC-решение - корпоративный стандарт для репликации и миграции данных

  • Руководитель проекта со стороны заказчика

    Владимир Зубков

    Россельхозбанк

    Архитектор департамента больших данных

  • Категория

  • Номинация

  • Цели

    Общая цель: импортозамещение инструментов обмена данными в контексте постепенного импортозамещения использовавшихся ОС, СУБД и CDC-средств.

    Задачи в рамках общей цели:

    • Обеспечить универсальность - поддержку существующих и перспективных источников и приемников данных (Oracle, PostgreSQL, Greenplum, Hadoop, S3, Iceberg, Tarantool/Picodata, Kafka), возможность репликации данных между разными СУБД

    • Минимизировать нагрузку на источники и приёмники данных

    • Сделать акцент на удобстве - в простоте разработки, администрирования и сопровождения решения

  • Сроки выполнения

    январь, 2025 — сентябрь, 2025
  • Год завершения проекта

    2025

  • Масштаб проекта

    40000 человеко-часов
  • Результаты

    1. Бизнес-эффект от внедрения решения заключается в существенном снижении срока реализации инфраструктурных проектов и многократном сокращении времени на разработку. То, что раньше могло делаться месяцами, теперь сводится к часам

    2. РСХБ резко снизил нагрузку на источники данных благодаря подходу к процессу репликации, при котором выбранное банком решение не использует SQL-запросы к исходным базам данных и не требует создания репликационных слотов в PostgreSQL, что исключает риски снижения производительности основных систем

    3. Решение Датафлот Репликация было принято в стек технологий РСХБ и согласовано как стандарт для задач CDC, как при импортозамещении существующих решений в банке, так и при использовании в новых информационных системах

    4. Информационные системы, использующие решение в результате выполнения проекта: автоматизированная банковская система, система сопровождения операций на финансовых рынках, оперативное хранилище данных

  • Уникальность проекта

    • Коробочное решение Датафлот Репликация, с учетом проведенных доработок, позволило закрыть все необходимые в контексте импортозамещения ОС и СУБД задачи Россельхозбанка по репликации и миграции данных и стало корпоративным стандартом

    • Проект обеспечил возможность развития и масштабирования задач миграции и репликации данных заинтересованными бизнес-подразделениями в режиме самообслуживания, без привлечения технических специалистов

    • Решение создаёт фактически нулевую (менее 1%) дополнительную нагрузку на ИТ-системы, что избавило от необходимости дорогостоящей закупки дополнительных ядер для базы данных источника. При этом оно может работать как в режиме времени, близком к реальному, так и в пакетном

  • Использованное ПО

    Решение для репликации транзакционных данных Датафлот Репликация (разработчик: компания «Датафлот»). Дополнительного ПО не потребовалось.

  • Решение из каталога Global CIO

    В проекте не используются решения из каталога Global CIO

  • Сложность реализации

    • Россельхозбанк – системообразующий государственный банк с широкой филиальной сетью. Информационные системы банка характеризуются большими потоками и объемами данных с высокой нагрузкой в режиме 24/7. Имеется много разных типов систем на разных СУБД (различные комбинации систем источников-приемников)

    • Сроки внедрения проекта были сжаты и определялись жестким циклом импортозамещения внутри банка

    • Сложность проекта заключалась также в обеспечении горячей замены CDC-решения в условиях параллельной работы legacy и импортозамещенной СУБД

    • Внедрение решения потребовало внесения в него ряда доработок для оптимизации производительности и учета особенностей используемых информационных систем и данных, которые позволили:

      • значительно сократить время начальной загрузки для больших объемов данных с использованием разнообразных техник многопоточной обработки

      • оптимизировать время загрузки и скорость парсинга журналов транзакций

      • учесть особенности данных и метаданных в интегрируемых системах

  • Описание

    Бизнес-процесс онлайн-репликации (см. иллюстрацию в дополнительных материалах) включает в себя множество потоков данных между гетерогенными источниками и получателями: базами данных, хранилищами данных, платформами обмена сообщениями. Источниками данных являются СУБД Oracle и PostgreSQL.

    Датафлот Репликация анализирует лог-файлы, поэтому эти файлы периодически выгружаются на отдельный сервер, на котором логи разбираются для формирования репликационных записей и транзакций для целевых систем. Такая процедура предназначена для ограничения доступа непосредственно к серверам СУБД, и, с другой стороны, разбор логов исходных СУБД ведётся с абсолютным отсутствием нагрузки на сервера СУБД.

    Одним из преимуществ механизма Датафлот Репликация является реализация слоя извлечения данных, передачи данных на целевой сервер и загрузку данных в целевую систему в единой системе, без применения промежуточных решений, таких как Kafka. Это делает систему более надёжной и снижает нагрузку на администрирование системы.

    Получателями данных в различных конфигурациях являются системы разного класса:

    • СУБД – Oracle, PostgreSQL

    • Хранилище данных Greenplum

    • Файлы на локальном хранилище

    • Сообщения, передаваемые через платформу обмена сообщениями Kafka

    • Данные на объектном хранилище S3 в открытых форматах Parquet и Iceberg

    • Данные в Hadoop (HDFS) в открытых форматах

    Внедренное решение доставляет данные в хранилища и мигрирует данные между различными СУБД, в том числе контролирует процессы переноса информации из Oracle в PostgreSQL и обратно, а также в хранилища S3 и Hadoop и системы потоковой обработки данных Apache Kafka. Репликация данных из БД-источника, создающим 3ТБ журналов в сутки, происходит с отставанием не более 5 минут.

    Успешная реализация проекта CDC-репликации стала возможна благодаря профессиональной команде РСХБ-Интех, которая обеспечила высокое качество технической поддержки и оперативное сопровождение внедрения отечественного решения Датафлот Репликация. Специалисты DIS Group сыграли важную роль в адаптации системы под специфические требования банковской инфраструктуры.

  • География проекта

    Филиальная сеть банка – более 1400 офисов по всей стране.

  • Дополнительные презентации

Комментировать

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Заказчик

    Россельхозбанк

    Россельхозбанк

  • ИТ-поставщик

    DIS Group

    DIS Group

Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.