Open source или нет:
как бизнесу по-новому работать с данными

Чем больше данных накапливается в информационных системах компании, тем актуальнее для нее становится подход Data-driven. Получить максимум от аналитики данных можно при помощи технологий, основанных на открытом коде – open source.

В третьем квартале 2022 года компания Global CIO провела опрос 100 CIO, CDTO и ИТ-руководителей российских компаний, чтобы выяснить, готовы ли они к работе с open source-технологиями для обработки данных. Результаты исследования показали, что большинство компаний (88%) готовы использовать решения на базе открытого ПО как альтернативу проприетарным программным продуктам. Тех, кто не готов, останавливает отсутствие потребности или аналогов необходимых решений в open source. 64% компаний размещают системы для работы с данными по модели on-premise, 32% используют гибридную модель и 4% уже работают с данными в облаке. При этом почти половина респондентов готовы перенести ИТ-системы, в том числе и предназначенные для работы с данными, в облако. Сдерживающим фактором остаются требования к соблюдению конфиденциальности и надежности хранения данных, которые гарантируются современными data-платформами и сервисами для работы с данными.

Data-driven или управление бизнес-процессами на основе данных способствует повышению операционной и стратегической эффективности компаний. Однако трудности при внедрении такого подхода с помощью традиционных проприетарных решений могут сделать проект менее успешным. Альтернативным решением становится облачная платформа данных с управляемыми сервисами на базе открытого ПО. Вместе с руководителем продуктов Data&ML в Yandex Cloud Всеволодом Грабельниковым разбираемся, как получить максимальную пользу от аналитики данных при помощи open source.

Data-driven подход преследует три ключевые цели:

  • принятие эффективных решений на основе проверенных релевантных данных;
  • выявление закономерностей;
  • предиктивный анализ данных и решение оптимизационных задач.

Эти цели достигаются с помощью ряда цифровых инструментов и сервисов. Огромные массивы данных, собранных из различных источников, должны быть структурированы, унифицированы, качественно обработаны и доступны для пользователей. Data-driven подход востребован в различных подразделениях: финансах, маркетинге, рисках, информационной безопасности и для продуктовых команд. Ниже мы разберем несколько примеров, каких результатов добились компании, применившие Data-driven подход на практике.

Какие задачи решает ваша компания в настоящее время?

Источник данных: исследование «Готовность к работе с open source технологиями для обработки данных»

На первый взгляд, чем больше информации в распоряжении компании, тем больший эффект должна приносить работа data-аналитиков и BI-систем. Однако при реализации Data-driven подхода есть нюансы:

  • данные поступают в разных форматах. Источников данных становится все больше: это прикладное ПО, устройства интернета вещей, социальные сети, веб-приложения, государственные информационные системы;
  • в инфраструктуре компании данные принимаются и обрабатываются разнородными системами. Для интеграции этих систем требуются глубокие знания;
  • рост объема данных не всегда предсказуем. Для их хранения требуются все больше серверных мощностей. Поставка и введение в эксплуатацию серверного оборудования занимают несколько месяцев, а масштабирование хранилища и операционных баз данных для приложений может потребоваться здесь и сейчас, поэтому возрастает роль облачных сервисов хранения данных;
  • компаниям необходим большой опыт и знания как в области data science, так и в области менеджмента, готовность руководителей развивать культуру управления на основе данных;
  • необходимы мощные инструменты для работы с данными: сервисы по управлению базами данных, инструменты аналитики и визуализации отчетности и другие. Возникает запрос на комплексные платформенные решения, такие как корпоративные хранилища данных data warehouse (DWH);
  • ограничение доступности проприетарных технологий делает бизнес-модель vendor lock-in (зависимость от вендора, поддержка legacy-систем с закрытым исходным кодом) все менее пригодной. Операционные затраты на продление лицензий и поддержку проприетарных аналитических систем растут. Компаниям приходится преодолевать недоверие к решениям на базе открытого исходного кода (open source).

Готова ли ваша компания использовать open source (решения на базе открытого ПО) как альтернативу проприетарным программным продуктам?

Источник данных: исследование «Готовность к работе с open source технологиями для обработки данных»

Эксплуатация data-инфраструктуры требует не только специальных знаний, но и ресурсов. Например, чтобы разрабатывать и поддерживать пять сервисов в архитектуре проекта и осуществлять интеграцию между ними в периметре компании, нужна команда из семи-восьми человек. В компании сегмента Enterprise количество генерирующих данные сервисов может быть гораздо больше. Найти квалифицированных data scientists, data engineers, бизнес-аналитиков, специалистов по машинному обучению не просто. На рынке до сих пор дефицит таких специалистов. Зачастую в команду приходит сотрудник без опыта работы, для его адаптации требуется время и помощь тимлида.

Решает ли ваша компания задачи в области Data Science (с использованием технологий машинного обучения)?

Источник данных: исследование «Готовность к работе с open source технологиями для обработки данных»

Компании теряют выручку из-за того, что не могут быстро разворачивать и оптимизировать data-проекты. Использование функциональных и гибких облачных платформ позволяет более эффективно хранить данные и управлять ими: получать доступ, перемещать, интегрировать, обеспечивать защиту данных, тщательно их анализировать. Решения на базе open source, входящие в состав облачных платформ и предоставляемые как сервис, дают возможность снизить зависимость от проприетарных программных продуктов.


Рост использования open source решений – глобальная тенденция. Вокруг open source объединяется все большее количество опытных разработчиков, а значит, созданные ими решения продолжают совершенствоваться и могут быть оперативно доработаны под конкретный запрос бизнеса.

Платформа данных в облаке: оптимальный формат Data-driven

Благодаря развертыванию data-проектов в облаке бизнес может фокусироваться на своем развитии и принятии решений, основанных на данных. Такой подход не требует вложений в непрофильную и дорогостоящую экспертизу поддержания инфраструктуры вокруг таких проектов.

Готова ли ваша компания разместить ряд систем в облаке? Какие именно?

Источник данных: исследование «Готовность к работе с open source технологиями для обработки данных»

Модульная облачная платформа обеспечивает единое управление данными в рамках ИТ-инфраструктуры предприятия, в том числе хранение и архивирование данных, резервное копирование и восстановление. Решение Yandex Cloud – один из вариантов такой платформы. Оно предоставляет пользователям такие сценарии использования, как развертывание СУБД и хранилища data warehouse, размещение и разработка бэкенда веб-сервисов или приложенией (1С, ERP, самописные системы), создание бэкенда интернет-магазина с корзиной, биллингом, личным кабинетом, создание сайта в облаке, бизнес-аналитика.

Цифровые инструменты Yandex Cloud включают в себя сервисы по управлению базами данных на основе open source. Разработчики платформы занимались созданием YDB и других open source проектов, а также участвуют в развитии PostgreSQL, ClickHouse, Greenplum.

Общепризнанные мировые сервисы на базе open source, размещенные в облаке, предоставляют доступную альтернативу ограниченно доступным проприетарным технологиям (Oracle, Microsoft, SAP, IBM и других вендоров). Сервисами на базе открытого кода пользуются тысячи клиентов облака: такая распространенность приводит к тому, что они протестированы и эксплуатируются наилучшим для клиентов образом. Кроме того, команда провайдера отвечает за поддержку этих сервисов, отслеживает и исправляет баги.

Архитектура YDB

Источник: Yandex Cloud

Distributed SQL база данных YDB доступна пользователям для развертывания на собственных или на сторонних серверах, в том числе на любых облачных платформах. Исходный код базы предоставляется по открытой лицензии Apache 2.0. Технология позволяет создавать сервисы с высокой степенью отказоустойчивости, которые можно быстро масштабировать по нагрузке и объему данных на десятки тысяч серверов.


Подробнее о YDB на платформе Yandex Cloud


Инструменты для работы с данными, размещенные на платформе Yandex Cloud, легко интегрируются друг с другом и быстро настраиваются. Заказчику нужно просто выбрать необходимые модули, и практически сразу они будут готовы к использованию.

Перенос баз данных из периметра компании в облако также не составит труда. Для этого есть специальный инструмент Data Transfer – CDC- и ETL-движок, предоставляемый бесплатно в 2022 году.

И, конечно же, платформа обладает всеми традиционными преимуществами облачных решений, например, быстрой масштабируемостью. Заказчик избавляется от необходимости закупать резервное оборудование, которое применяется в редких случаях при скачкообразных нагрузках. Любые сервисы, доступные на платформе, предоставляются по запросу и быстро настраиваются.

Размещение веб-сервиса в облаке во многих сценариях обходится дешевле по сравнению с использованием собственной инфраструктуры. Облачная платформа обеспечивает гибкое и прозрачное ценообразование. Например, развертывание DWH в облаке может стоить меньше, чем развертывание хранилища on-premise. Сэкономленные средства компания может направить на развитие дата-продуктов.

Статьи расходов на управление и владение БД в разных средах

Источник: Yandex Cloud

На базе платформы данных можно построить эффективные сценарии машинного обучения для оптимизации бизнес-процессов и увеличения выручки.


Yandex Cloud уделяет особое внимание информационной безопасности клиентов. Для использования любого open source решения в рамках платформы применяются различные подходы к оценке и снижению рисков, в том числе верификация исходного кода на предмет уязвимостей, регулярные тесты.


При реализации Data-driven подхода использование облачной платформы управления данными дает следующие преимущества:

  • отказ от модели vendor lock-in благодаря широкому спектру решений на open source;
  • прозрачное ценообразование;
  • надежность в облаке и качественную поддержку;
  • высокую скорость развертывания и масштабирования.


3476

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.