Большие данные в России: пилот. Часть 1.

11 ноября 2013

Последний год я занимаюсь преимущественно тематикой анализа больших данных для российских клиентов. Можно сделать некоторые обобщения и выводы.

Начнем с определений. Напомню, что Gartner определяет большие данные как три V: volume—объем, velocity—скорость, как появления данных, так и их изменения, variety — многообразие, в том числе одновременная обработка данных разных типов. К ним относятся данные текстовые, изображения, в том числе видео, звуковые записи, данные сенсорных датчиков и других подобных устройств.

Анализ больших объемов структурированной информации я бы не относила напрямую к анализу больших данных. Эта тема скорее относится к развитию технологий сверхбольших реляционных баз данных, использованию специализированных программно-аппаратных комплексов, таких как Oracle Exadata. Например, анализ чеков для сетевых магазинов. Такую информацию всегда умели хранить и анализировать в реляционных базах данных. В последние годы здесь произошли большие изменения в том, с какими объемами и с каким быстродействием можно работать, но несмотря на это мы по-прежнему имеем дело с реляционной или OLAP технологией.

Тема больших данных — это совсем новые технологии для хранения и анализа прежде всего нестандартных данных, где традиционные реляционные методы не работают или оказываются неэффективными. Такие новые направления, как Hadoop, NoSQL базы данных, аналитические инструменты класса datadiscovery, как раз и ориентированы на работу с нестандартной информацией, которую сразу не разложишь по таблицам и столбцам. Эти технологии дают либо новую функциональность, т.е. появляются задачи, которые раньше даже не ставились, либо дают очень большое повышение эффективности известных задач.

Если говорить о новых задачах анализа, возникающих в связи с большими данными, то видно, что сейчас наиболее интересное и перспективное направление в России — анализ данных неструктурированных, прежде всего текстов. Наиболее типовой задачей становится проблема выявления полезной для бизнеса информации на основе анализа текстов интернет источников или собственных архивов документов. С точки зрения инструментов анализа для подобных задач формируется новый сегмент программных средств — datadiscovery. В отличие от средств классического бизнес-анализа, где мы работаем с многочисленными вычислениями и агрегированием, здесь преобладают поисковые операции, совместный анализ результатов поиска со структурированной информацией.

Теперь перейду к примерам задач, которые можно считать типовыми.

Востребован анализ информации интернет источников и сайтов соцсетей. В этой области в России заказчики уже стали уже формулировать требования так, что видны границы типовых задач. Это, например, выявление реакции потребителей на товары и услуги. Компании хотят знать, что люди о них думают на самом деле. Анализ неструктурированной текстовой информации может быть сопоставлен с результатами традиционной аналитики. Например, у компании есть точные данные о выводе своих продуктов на рынок, маркетинговых акциях. Очень интересно узнать, какой же была реакция конечных потребителей. На объемах, которые дают сайты и соцсети, это можно выяснить с достаточной степенью достоверности, и российские компании уже пытаются это выяснять, причем, не замыкаясь на анализе лишь маркетинговом.

Пример задачи из банковской области. У банка есть кредиторы — юридические лица, за деятельностью которых следят аналитики банка с целью оценки рисков невозврата денежных средств. Однако привычных средств мониторинга и анализа иногда бывает недостаточно: информация из интернета может дать «сигнал опасности» точней и, возможно, раньше. Понимая это, сотрудники банка уже сейчас занимаются поиском в различных интернет источниках с помощью универсальных поисковых систем. Это и трудоемко, и не дает гарантии, что ничего значимого не пропущено. Не всегда удается во-время выявить информацию о том, что кто-то из топ-менеджеров какого-то холдинга окажется замешанным в неприглядной истории, а это может существенно повлиять на положение компании-кредитора. Требуется постоянный мониторинг, результатом которого является «выжимка», с которой уже есть смысл работать человеку. В ней должны быть выявлены потенциально важные, критичные факты, темы, направления поиска, указана их «окраска» — негативные, позитивные высказывания.

Еще один круг задач связан с работой служб безопасности. До сих пор чаще всего их сотрудники вручную проверяют все документы определенных типов. Они прекрасно знают, что именно они ищут. Если бы для людей была готова автоматически созданная выборка «требующих внимания» фрагментов, это сильно ускорило бы работу.

И наконец, еще один пример — смысловой поиск в документальных архивах. Частично эта задача пересекается с функциональностью систем управления контентом, систем документооборота. Но в этих системах акцент сосредоточен на автоматизации документооборота, на эффективном хранении документов, а не на сложных процедурах лингвистического поиска. В результате использования систем электронного документооборота собираются огромные текстовые архивы. Они чаще всего сделаны на основе связки: учетная карточка документа и его изображение. Сейчас уже сложилась потребность переходить к полнотекстовому поиску, для чего необходимо массовое распознавание и индексирование этих изображений. Это серьезное качественное изменение: еще несколько лет назад такой потребности не было.

Какие задачи анализа неструктурированной информации стоят перед вашей организацией? Как вы их решаете или намерены решать?

Продолжение обсуждения: Большие данные в России: пилот. Часть 2.

5577