Как развернуть Greenplum в облаке без потерь в производительности и роста затрат – новое исследование от «Кругов Громова»
Аналитический центр «Круги Громова» представляет результаты нового исследования «Greenplum в облаке. Круг Громова 2025», посвященного практическим аспектам развертывания MPP-СУБД[1] Greenplum и Arenadata DB в инфраструктуре облачных провайдеров. Исследование основано на анализе архитектурных требований Greenplum и Arenadata DB, оценке предложений облачных провайдеров и практических рекомендациях по развертыванию MPP-СУБД в виртуальной инфраструктуре. Оно помогает организациям понять, как правильно оценивать облачные ресурсы, избегать скрытых рисков и не столкнуться с деградацией производительности после перехода в облако.
Цель исследования – проанализировать, насколько современные облачные сервисы отечественных провайдеров готовы поддерживать развертывание, эксплуатацию и масштабирование аналитических СУБД на базе распределенной MPP-архитектуры, отвечающих требованиям крупного бизнеса по производительности, отказоустойчивости и информационной безопасности.
СУБД Greenplum – это специализированная система для построения аналитических хранилищ данных (Data Warehouse) крупного масштаба, построенная на основе массово-параллельной архитектуры MPP (massively parallel processing). Greenplum представляет собой управляемый кластер из нескольких экземпляров PostgreSQL, функционирующих как единая логическая СУБД, что обеспечивает высокую степень совместимости с SQL-синтаксисом и API стандартного PostgreSQL. Ключевая особенность Greenplum — значительный рост производительности при сохранении реляционного подхода к работе с данными, включая поддержку колоночного хранения, сжатия и встроенных механизмов выполнения аналитики непосредственно внутри СУБД.
На российском рынке Greenplum исторически развивается при участии компании Arenadata, которая является одним из лидеров по количеству вкладов в ядро open-source-проекта и сегодня предлагает собственное решение – Arenadata DB (ADB).
ADB – аналитическая распределённая СУБД, реализованная на базе MPP-архитектуры и построенная на исходном коде Greenplum. Продукт зарегистрирован в реестре российского ПО и имеет сертификат ФСТЭК подтверждающий соответствие требованиям по безопасности информации, установленным в документах «Требования по безопасности информации, устанавливающие уровни доверия к средствам технической защиты информации и средствам обеспечения безопасности информационных технологий» (ФСТЭК России, 2020) – по 4 уровню доверия – и «Требования по безопасности информации к системам управления базами данных» (ФСТЭК России, 2023) — по 4 классу защиты. ADB доступна в двух редакциях – бесплатной Community Edition и коммерческой Enterprise Edition, включающей подсистемы управления, мониторинга, резервного копирования, техподдержку и документацию на русском языке.
Отечественные облачные провайдеры предлагают различные модели сервисов для размещения Greenplum/ADB: от IaaS (Infrastructure as a Service), где заказчик самостоятельно инсталлирует и управляет СУБД, до PaaS (Platform as a Service) – полностью управляемого сервиса, при котором провайдер берет на себя развертывание, мониторинг, обновления, резервное копирование и обеспечение безопасности. На сегодняшний день, кроме Яндекса, предлагающего PaaS-сервис «Yandex Managed Service for Greenplum», большинство провайдеров (VK Cloud, Beeline Cloud, Cloud.ru, K2 Cloud, T1 Облако, MWS, Selectel, Oxygen, A2 Cloud) предлагают СУБД с Arenadata DB в рамках IaaS или PaaS сервисов, используя сертифицированную компанией Arenadata инфраструктуру.
При размещении СУБД Greenplum/ADB в рамках инфраструктуры облачного провайдера в исследовании дается следующая рекомендация – для реализации высоконагруженной СУБД, работающей со сложными запросами от большого количества пользователей, используемую в продуктивном режиме, её целесообразно размещать на серверах без использования средств виртуализации. Размещение СУБД в инфраструктуре с использованием средств серверной виртуализации оправдано при работе с малонагруженными системами, при тестировании и для использования СУБД в целях разработки, учитывая рекомендации, приведенные в исследовании.
Центральной частью исследования стало сравнение предложений облачных провайдеров по размещению СУБД Greenplum/Arenadata DB в облаке. Авторы опирались на пользовательский опыт, полученный в рамках реального проекта. Для этого в адрес облачных провайдеров были направлены запросы предложений с заранее определённым набором требований:
- Для модели IaaS была подготовлена детальная спецификация аппаратных ресурсов и требований к их реализации на основе рекомендаций Arenadata.
- Для PaaS-модели запрос формировался исходя из объёма данных: 15 ТБ (7,5 ТБ в сжатом виде) для продуктивной системы и 7,5 ТБ (3,75 ТБ в сжатом виде) для среды разработки. На основе полученной от провайдеров информации был проведён анализ и сравнительная оценка решений.
Подводя итоги исследования, Владимир Быков, директор по развитию аналитического центра «Круги Громова», отмечает: «Отечественная облачная инфраструктура – один из самых динамично развивающихся сегментов ИТ-рынка. Если ещё десять лет назад облачные сервисы российских провайдеров в основном использовал малый бизнес, то сегодня к ним всё активнее обращаются компании среднего и крупного масштаба. Для них особенно важны возможности снижения не только капитальных (CAPEX), но и операционных расходов (OPEX) на сопровождение ИТ-систем. Управляемые сервисы позволяют использовать экспертизу высококвалифицированных специалистов облачных провайдеров, а сертификация их центров обработки данных по требованиям регуляторов существенно снижает затраты на обеспечение информационной безопасности.
Отдельно стоит отметить работу облачных провайдеров по реализации регуляторных требований к инфраструктуре. Их выполнение открывает возможности более широкого использования облачных ресурсов крупными отечественными предприятиями, для которых соблюдение требований регуляторов является критически важным.
Растёт и спрос: компании среднего и крупного бизнеса всё чаще ищут технологически зрелые облачные решения для СУБД, хранилищ данных, ETL, BI и других задач. В ответ облачные провайдеры активно расширяют свои портфели, развивая управляемые сервисы. Однако, несмотря на техническую готовность инфраструктуры к реализации сложных и высоконагруженных сценариев, многие предложения пока недостаточно структурированы и прозрачны для заказчиков. Мы уверены, что по мере зрелости и стандартизации рынка управляемых сервисов эта ситуация будет постепенно выравниваться».
[1] MPP‑СУБД (англ. MPP DB – Massively Parallel Processing Database) – СУБД с массово‑параллельной обработкой данных, распределяющей нагрузку между множеством независимых узлов.