Все и сразу: Oracle, Hadoop и NoSQL под одной крышей

29 февраля 2016

Cегодня вокруг понятия Big Data существует множество заблуждений и предубеждений. Некоторые считают, что Big Data — это только неструктурированные данные или данные из социальных сетей. Другие уверены, что это какие-то принципиально новые типы даных, и обрабатывать их традиционными технологиями (например, реляционными БД) невозможно. Есть и те, кто считают, что это лишь маркетинг, за которым ничего нет. А еще многие компании уверены, что больших данных конкретно у них просто нет.Тем не менее, каждый месяц появляются все новые и новые примеры компаний и организаций, которые успешно применяют Боьшие данные в своей работе.

Конечно, для начала было бы хорошо привести какое-нибудь четкое и общепринятое определение термина, но консенсуса тут пока не достигнуто. Долгое время было принято характеризовать большие данные при помощи трех V: Velocity, Variety, Volume, но на строгое определение это не похоже. Для меня большие данные — это в первую очередь новые возможности, ставшие доступными благодаря новым технологиями или подходам к обработке больших объемов данных.

Для начала разберемся, почему вообще о больших данных стали говорить? Сразу несколько факторов сыграли свою роль в популяризации Больших данных. Во-первых, технологии, которые раньше использовались только в веб-проектах (Hadoop, NoSQL базы данных и др.) достигли того уровня зрелости, когда для их использования уже не требовалось держать штат программистов. Они достигли уровня, когда стало возможно использовать их на предприятиях, чей основной бизнес не построен вокруг обработки сверхбольших объемов данных, как во многих интернет-проектах. Во-вторых, появились новые возможности для получения конкретных дополнительных преимуществ при помощи больших данных: глубокий анализ поведения клиентов, высокоточная реклама, объединение и анализ данных из многих источников, анализ мошенничеств и т.д. Ну и в- третьих, Big Data позволяет существенно удешевить хранение и обработку данных.

В Oracle под технологиями обработки больших данных мы подразумеваем совместное эффективное использование Hadoop, традиционных реляционных и NoSQL баз данных, а также обработку и анализ потоковых данных. Все эти составляющие прекрасно известны в ИТ-сообществе и активно используются. У каждого из них есть свои достоинства и недостатки. Очевидно, что хочется использовать плюсы всех технологий..

Одна из сложностей, с которыми сталкиваются те, кто начинаете работать с Hadoop — необходимость осваивать навыки работы принципиально отличные от тех, что требуются при взаимодействии с реляционными базами данных.. Аналитики привыкли работать с SQL, и все существующие BI-инструменты рассчитаны именно на этот язык. Эту проблему пытаются решить при помощи дополнительных инструментов (например, Apache Hive), но функциональность таких решений ограничена и требует экспертных знаний в этой области.

Oracle удалось выстроить общий интерфейс над Hadoop, Oracle Database и NoSQL базами данных. Эту технологию назвали Oracle Big Data SQL. Общей точкой входа является база данных Oracle, из которой можно обращаться к данным при помощи языка Oracle SQL независимо от того, где они лежат - в кластере Hadoop, реляционной или NoSQL базе данных. Таким образом можно даже объединять в одном запросе данные, лежащие в разных системах. Кроме того, из-за того, что Oracle SQL обладает очень мощными и развитыми возможностями, там, где на HiveQL (SQL-подобный язык, применяемый в Apache Hive) потребовалось бы писать 250 строк кода, можно написать 12 строк на Oracle SQL.. И вдобавок появляется возможность использовать наработки по ускорению обработки данных применяемые в Oracle Exadata. Кроме того, так как Oracle SQL понимают большинство BI инструментов, то у этих инструментов автоматически появляется возможность работать с данными Hadoop, даже если они изначально для этого не проектировались.

В том, что большие данные работают, Oracle смогла убедиться и на своем опыте. В 2013 году команда Oracle участвовала в регате America’s Cup. Ситуация складывалась для команды не лучшим образом, они проигрывали со счетом 8:1, и команде соперника для победы не хватало лишь одного очка. Однако буквально за неделю ситуация изменилась кардинальным образом: команда Oracle победила в регате со счетом 8:9. Как им это удалось? По словам Ларри Эллисона, они просто взломали код. Но на деле решение проблемы хоть и было хакерским, оно было ближе к оригинальному значению этого слова и не имело отношения к реальному взлому компьютерных систем. Дело в том, что катамаран участвовавший в регате был увешан тремя сотнями датчиков, отслеживавшими 3000 показателей каждую десятую долю секунды. Все это генерировало около 2 гигабайт сырых данных ежедневно. За день записывалось еще около 200 гигабайт видео о перемещениях и действиях членов команды. Начав анализировать эти данные в реальном времени, увязывая их с погодными показателями, команда смогла принимать решения, которы приводили к максимальному результату. Естественно, все члены команды были просоленными моряками, опиравшимися еще и на собственный опыт, однако дополнительная информация, полученная благодаря анализу больших данных помогла им уберечься от ошибок и полностью переломить ход соревнования.

Конечно, это скорее курьезный пример, но подход действительно работает. Например, компания Airbus смогла ускорить летные испытания точно так же обрабатывая данные с датчиков.

Министерство образования Турции планирует при помощи данных выстроить максимально эффективную систему обучения. Для этого они будут отслеживать и анализировать поведение 18 миллионов учеников из 42 000 школ при взаимодействии с обучающим компьютерами и планшетами.

Испанский CaxiaBank уже признан самым инновационным банком в мире. Выстроив архитектуру управления информацией на основе больших данных, им удалось добиться максимальной выгоды от имеющейся информации о клиентах за счет идентификации возможностей для создания персонифицированных предложений, а также улучшенного анализа мошенничества.

А что же с большими данными в России? Некоторое отставание от общемировых трендов есть, но не столь уж значительное. Проведенный по заказу Oracle опрос среди руководителей 108 российских компаний из разных отраслей экономики показал, что около 37 процентов его участников либо уже применяют большие данные (20%), либо начинают экспериментировать с ними (17%). Очевидно, что большие данные приходят в Россию, хотя для многие компании (14%) по-прежнему ставят знак равенства между Big Data и Hadoop, хотя на сегодняшний день это лишь один из сегментов набора технологий для обработки больших данных, эффективное взаимодействие между которыми позволяет добиться максимального результата. Однако в большинстве (26%) те, кто воспринимает большие данные с концептуальной точки зрения, как некое решение, которое позволяет извлечь неочевидную ранее пользу от данных.

8163