Зачем BI-платформе нужен движок, и что он дает бизнесу?
Популярность BI-платформ неуклонно растет, как в России, так и во всем мире. По данным исследования "Пульс BI" только в разрезе продаж лицензий российский рынок BI растет в среднем на 9% в год. При этом в BI-платформах нуждаются в первую очередь крупные корпорации, которые теряют гибкость и управляемость без возможности изучать и визуализировать актуальные данные. В этой статье мы подробнее рассмотрим архитектуру аналитических платформ, а также разбираемся, в каких случаях бизнесу необходимо решение с собственным движком.
Любая аналитическая система имеет хранилище – в простейшем случае СУБД – а также средства визуализации данных. Но при этом далеко не каждая платформа обладает собственным аналитическим движком. Это объясняется тем, что для простейших задач часто оказывается достаточно взять данные из хранилища и построить диаграмму или график.
Однако по мере роста количества данных, которые необходимо анализировать, разнообразия источников, количества пользователей и сложности запросов, такая схема начинает работать все хуже. Снижается производительность, от специалистов требуется все больший уровень подготовки, разработка новых дашбордов и отчетов занимает много времени и не обходится без участия ИТ-специалистов.
Разработчики корпоративных BI-платформ решают эту проблему за счет дополнительного слоя хранения данных, который также называют “аналитическим движком”. Это характерно для всех мировых лидеров, включая Microsoft, Tableau, Qlik и других. Дело в том, что при переходе к сложным управленческим процессам и росту объемов анализируемых данных, оказывается недостаточно просто сделать запрос к СУБД и визуализировать полученные данные. Лучшие практики BI говорят о том, что для решения задач бизнеса необходимо проводить операции над данными: готовить промежуточные расчеты, формировать представления и витрины данных.
В 2024 году российский разработчик BI-платформы компания Visiology зарегистрировала новый торговый знак “ДанКо”, который касается как раз нового аналитического движка. О том, как именно меняется работа с BI-платформой, которая использует в работе движок, сегодня рассказывает Алексей Никитин , Генеральный директор Visiology.
Расскажите, почему вы решили создать отдельный движок именно сейчас?
На самом деле в Visiology всегда был свой движок. Мы начали разработку платформы в 2015 году, и на тот момент лучшим решением было создание собственной технологии. До появления современной третьей версии пользователи ценили Visiology за быструю работу и применение In-Memory модели вычислений. Однако времена меняются, и современные модели данных уже не помещаются в оперативную память даже очень большого сервера. К тому же появились такие замечательные технологии как СУБД ClikHouse – с высокой производительностью, хорошей поддержкой сообщества и новым подходом к колоночному хранению данных. Поэтому три года назад мы приступили к разработке нового движка, который работает на базе ClickHouse как базового хранилища. Сегодня “ДанКо” является важнейшей частью экосистемы Visiology. Движок обеспечивает возможность работы с BigData, позволяет делать многие вещи и исследовать данные бизнес-пользователям без программирования, адаптирует хранилище под профиль пользователей и позволяет сохранить высокую производительность даже для тысяч пользователей и терабайт данных.
Но сегодня большинство BI-платформ поддерживают работу с ClickHouse. Чем отличается Visiology?
Учитывая соответствие возможностей популярной базы данных аналитическим задачам, работа с ClickHouse – единственно логичное решение на сегодняшний день. При правильной настройке эта колоночная СУБД демонстрирует наиболее высокую производительность для аналитических задач и может обеспечить хранение практически неограниченных объемов данных. То есть, если платформа не работает с ClickHouse, это повод серьезно задуматься о ее применимости в современных реалиях, ведь это все равно что автомобиль без коробки передач
Но главная ценность корпоративной BI-платформы в том, что лежит поверх ClickHouse. Сама по себе СУБД просто предоставляет колоночный режим хранения и хорошие возможности масштабирования. Но если начать записывать в нее информацию просто так, в нужный момент будет очень сложно найти конкретные данные.
Представьте, что мы аккуратно раскладываем объекты на складе по коробкам. Казалось бы, все размещено логично, красиво и компактно. Но что, если самый востребованный объект сегодня находится в заднем ряду на верхней полке? А если завтра нам нужнее всего коробки, которые мы только вчера аккуратно убрали подальше? В реальности часто приходится модернизировать схему размещения данных, дублировать, кешировать и реплицировать некоторые из них, чтобы аналитика работала быстрее. Именно поэтому многие проекты в сфере BI либо затягиваются, либо становятся намного дороже – архитекторам с высокой зарплатой приходится постоянно думать об оптимальном размещении записей. В нашем случае ДанКо реализует десятки оптимизаций хранения данных, потому что эту же самую инженерную работу выполнят наша команда и улучшает размещение данных в хранилище с каждым релизом платформы.
Но кроме этого на уровне ДанКо реализована работа с моделью данных TOM (Tabular Object Model). Она имеет графическое представление и поэтому позволяет даже неподготовленным пользователям устанавливать связи и менять их.
Также на уровне ДанКо разграничивается доступ к данным. То есть один и тот же дашборд будет демонстрировать разные данные директору, линейному руководителю и сотруднику без дополнительных усилий со стороны ИТ-службы.
Также одним из преимуществ движка ДанКо является поддержка синтаксиса DAX – одного из самых популярных мета-языков для аналитических запросов. Использование DAX не только многократно упрощает перенос проектов с Microsoft Power BI, но также позволяет настраивать ролевой доступ и источники данных, готовить витрины и вести исследование данных пользователям даже без ИТ-бэкграунда.
Среди ваших клиентов есть такие компании, которые искали именно возможности BI-платформы с движком?
Да, причем в их числе могут быть совершенно разные категории клиентов. Один из портретов – это компании. Одни заказчики ищут возможности развития Self Service, чтобы предоставить пользователям самостоятельно, без ИТ специалистов загружать и даже трансформировать данные. Но в условиях, когда ИТ-отдел сам занимается оптимизацией и подготовкой хранилища ClickHouse, никто не пустит в этот процесс пользователей, которым нужно добавить данные и, тем более, скомбинировать их из разных источников. Получается, что без такого аналитического движка как ДанКо подобное оказывается просто невозможно.
Второй портрет – это компании, которым необходимо получить быструю аналитику на больших объемах данных при вменяемых затратах – как финансов, так и времени. Поскольку в движке ДанКо уже все подготовлено, переход к реальной продуктивной работе причем с хорошей производительностью происходит максимально быстро.
Третья категория заказчиков просто не готова выстраивать собственное быстрое аналитическое хранилище на базе ClickHouse. Дело в том, что на подобные проекты в реальности способны немногие компании: поддержка витрин для больших объемов и сложных структур данных требует глубокой экспертизы, наличия команды профессионалов с высокими зарплатами (часто их количество достигает десятков человек) и высокой инженерной культуры внутри компании.
Также нельзя забывать про ситуации, когда наличие движка является важным условием достижения высокой производительности при больших нагрузках. В этом случае Visiology 3 выбирают как раз квалифицированные ИТ-команды, которые понимают, что смогут решить свои задачи с ДанКо быстрее и лучше. Так, именно наличие ДанКо позволило приступить к реализации проекта по внедрению системы мониторинга Госзакупок ФК РФ.
Недавно было завершено внедрение Visiology компанией Полианалитика в “Россети. Северо-запад”, где наличие движка и поддержка DAX были критически важными требованиями.
Кстати, именно рассказы о новейших технологиях в сфере анализа данных и реальные кейсы, раскрываемые самими заказчиками уже которыйгод делают конференцию ViRush главной точкой притяжения аналитиков и системных интеграторов. В этом году на конференции ViRush 2024 также ожидается участие целого ряда реальных пользователей Visiology 3, которые от первого лица расскажут о том, почему им важно наличие движка ДанКо, и какую роль он играет в работе реальных BI-платформ.
Так конференция ViRush – это мероприятие для аналитиков, разработчиков или руководителей?
В прошлом году на ViRush 2023 мы провели интенсивный нетворкинг с широким кругом партнеров и заказчиков, и в числе участников были представители всех названных вами категорий профессионалов. Поэтому в 2024 году было решено расширить программу стратегическими вопросами управления на основе данных, не связанными непосредственно с Visiology. Также в этом году у нас сразу 4 партнера – Arenadata, “Полианалитика”, Merlion и Conteq. Таким образом, мы увидим еще больше технических решений и экспертизы по решению задач в сфере бизнес-аналитики.
А учитывая, что участие в мероприятии бесплатно для всех BI-специалистов и руководителей, мы получаем обширную среду для профессионального нетворкинга, в которой можно поделиться опытом и получить полезные отзывы с реальных проектов, ценные как для аналитиков, так и для топ-менеджеров. Так что если вы захотите принять участие в ViRush 2024, мы будем рады видеть вас среди гостей 14 ноября в Центре Событий РБК, чтобы обсудить возможности ДанКо вместе с теми людьми, которые уже сейчас решают реальные задачи на базе Visiology 3.