Большие данные в России: пилот. Часть 1.

26

Часть 2.

Последний год я занимаюсь преимущественно тематикой анализа больших данных для российских клиентов. Можно сделать некоторые обобщения и выводы.

Начнем с определений. Напомню, что Gartner определяет большие данные как три V: volume—объем, velocity—скорость, как появления данных, так и их изменения, variety — многообразие, в том числе одновременная обработка данных разных типов. К ним относятся данные текстовые, изображения, в том числе видео, звуковые записи, данные сенсорных датчиков и других подобных устройств.

Анализ больших объемов структурированной информации я бы не относила напрямую к анализу больших данных. Эта тема скорее относится к развитию технологий сверхбольших реляционных баз данных, использованию специализированных программно-аппаратных комплексов, таких как Oracle Exadata. Например, анализ чеков для сетевых магазинов. Такую информацию всегда умели хранить и анализировать в реляционных базах данных. В последние годы здесь произошли большие изменения в том, с какими объемами и с каким быстродействием можно работать, но несмотря на это мы по-прежнему имеем дело с реляционной или OLAP технологией.

Тема больших данных — это совсем новые технологии для хранения и анализа прежде всего нестандартных данных, где традиционные реляционные методы не работают или оказываются неэффективными. Такие новые направления, как Hadoop, NoSQL базы данных, аналитические инструменты класса datadiscovery, как раз и ориентированы на работу с нестандартной информацией, которую сразу не разложишь по таблицам и столбцам. Эти технологии дают либо новую функциональность, т.е. появляются задачи, которые раньше даже не ставились, либо дают очень большое повышение эффективности известных задач.

Если говорить о новых задачах анализа, возникающих в связи с большими данными, то видно, что сейчас наиболее интересное и перспективное направление в России — анализ данных неструктурированных, прежде всего текстов. Наиболее типовой задачей становится проблема выявления полезной для бизнеса информации на основе анализа текстов интернет источников или собственных архивов документов. С точки зрения инструментов анализа для подобных задач формируется новый сегмент программных средств — datadiscovery. В отличие от средств классического бизнес-анализа, где мы работаем с многочисленными вычислениями и агрегированием, здесь преобладают поисковые операции, совместный анализ результатов поиска со структурированной информацией.

Теперь перейду к примерам задач, которые можно считать типовыми.

Востребован анализ информации интернет источников и сайтов соцсетей. В этой области в России заказчики уже стали уже формулировать требования так, что видны границы типовых задач. Это, например, выявление реакции потребителей на товары и услуги. Компании хотят знать, что люди о них думают на самом деле. Анализ неструктурированной текстовой информации может быть сопоставлен с результатами традиционной аналитики. Например, у компании есть точные данные о выводе своих продуктов на рынок, маркетинговых акциях. Очень интересно узнать, какой же была реакция конечных потребителей. На объемах, которые дают сайты и соцсети, это можно выяснить с достаточной степенью достоверности, и российские компании уже пытаются это выяснять, причем, не замыкаясь на анализе лишь маркетинговом.

Пример задачи из банковской области. У банка есть кредиторы — юридические лица, за деятельностью которых следят аналитики банка с целью оценки рисков невозврата денежных средств. Однако привычных средств мониторинга и анализа иногда бывает недостаточно: информация из интернета может дать «сигнал опасности» точней и, возможно, раньше. Понимая это, сотрудники банка уже сейчас занимаются поиском в различных интернет источниках с помощью универсальных поисковых систем. Это и трудоемко, и не дает гарантии, что ничего значимого не пропущено. Не всегда удается во-время выявить информацию о том, что кто-то из топ-менеджеров какого-то холдинга окажется замешанным в неприглядной истории, а это может существенно повлиять на положение компании-кредитора. Требуется постоянный мониторинг, результатом которого является «выжимка», с которой уже есть смысл работать человеку. В ней должны быть выявлены потенциально важные, критичные факты, темы, направления поиска, указана их «окраска» — негативные, позитивные высказывания.

Еще один круг задач связан с работой служб безопасности. До сих пор чаще всего их сотрудники вручную проверяют все документы определенных типов. Они прекрасно знают, что именно они ищут. Если бы для людей была готова автоматически созданная выборка «требующих внимания» фрагментов, это сильно ускорило бы работу.

И наконец, еще один пример — смысловой поиск в документальных архивах. Частично эта задача пересекается с функциональностью систем управления контентом, систем документооборота. Но в этих системах акцент сосредоточен на автоматизации документооборота, на эффективном хранении документов, а не на сложных процедурах лингвистического поиска. В результате использования систем электронного документооборота собираются огромные текстовые архивы. Они чаще всего сделаны на основе связки: учетная карточка документа и его изображение. Сейчас уже сложилась потребность переходить к полнотекстовому поиску, для чего необходимо массовое распознавание и индексирование этих изображений. Это серьезное качественное изменение: еще несколько лет назад такой потребности не было.

Какие задачи анализа неструктурированной информации стоят перед вашей организацией? Как вы их решаете или намерены решать?

Продолжение обсуждения: Большие данные в России: пилот. Часть 2.

5624
Коментарии: 26

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Михаил Петров
    Рейтинг: 809
    Счетная палата Российской Федерации
    Директор департамента цифровой трансформации
    12.11.2013 22:51

    Спасибо за примеры задач!
    А с примерами "конечного результата" можете с какими-то познакомить? Как они выглядят для конечного пользователя?

    • Виктор Федько Михаил
      Рейтинг: 367
      Независимый эксперт
      Эксперт
      14.11.2013 14:47

      Собственно, речь идет вот об этом.

      И вот тут тоже неплохо рассказано. Если осилишь до конца. Я не смог - уснул)))).

      • Михаил Петров Виктор
        Рейтинг: 809
        Счетная палата Российской Федерации
        Директор департамента цифровой трансформации
        15.11.2013 09:13

        да, осиливается с трудом. но идея понятна ))

  • Виктор Федько
    Рейтинг: 367
    Независимый эксперт
    Эксперт
    14.11.2013 14:42

    Сейчас уже сложилась потребность переходить к полнотекстовому поиску, для чего необходимо массовое распознавание и индексирование этих изображений. Это серьезное качественное изменение: еще несколько лет назад такой потребности не было.

    Я думаю, что такая потребность была всегда. Не было возможности и средств поиска. Смысловой поиск в документальных архивах - это важная вещь и ее необходимость даже не стоит доказывать. Другое дело, что раньше это было в принципе не реально. Теперь - да, если тексты, конечно, хранятся в соответсвующем структурированном виде.

  • 14.11.2013 15:48

    Тут недавно была конференция IDC по большим данным. Как один, все выступавшие говорили про связь структурированных с неструктурированными данными, про поиск в социальных сетях. Что интересно, в отличии от прошлых лет, были заказчики российские с реальными проектами. И, скажем, "Вымпелком" говорил о том, что они ищут реакцию на свои акции в соц.сетях. А фирма "Коттон вей", которая предоставляет РЖД белье в поездах (не во всех пока), сделала интеграцию с колл центром РЖД. Если вы пассажир, звоните в РЖД и говорите - фу, белье ужасное. "Коттон вей" про это сразу узнает, и уже в пути белье вам заменят. К бизнес-процессам имеет отношение, между прочим, тоже. Вообще задачи решаются действительно какие-то новые. Прямо странно даже:))

    • Виктор Федько
      Рейтинг: 367
      Независимый эксперт
      Эксперт
      14.11.2013 16:09

      Ох, мне тоже страшно. Я как представил себе, что в купе где-нибудь между Иркутском и Красноярском заходят и спрашивают : "Ну, и кому тут белье не нравится?" ))). Мурашки пошли.

      • Виктор
        14.11.2013 16:49

        Нет, вы не обратили внимания на ньюанс. ОНИ УЖЕ ЗНАЮТ, кому не нравится белье. И ему прямо и выдают:)). И вообще вся затея с анализом этих самых неструктурированных данных как раз, во всяком случае часто, и сводится к тому, чтобы знать, кому что не нравится.
        Что меня совсем добило: к белью Коттон вей цепляет rfid-метки. Весь учет и контроль на них. Это они - метки - и дают эти самые большие данные, у них же белья в обороте почти 20 миллионов единиц. Я про этот проект отдельно напишу, и ИТ директора их постараюсь пригласить.

        • Виктор Федько
          Рейтинг: 367
          Независимый эксперт
          Эксперт
          14.11.2013 16:55

          Я предполагаю, что метки дают не только большие данные, но и большие деньги. Причем всем сразу))).

          Насчет того, что УЖЕ ЗНАЮТ я внимание как раз и обратил.))). Хорошо, если выдадут только белье)))). А то и без него обойдутся))

        • Марк Шварцблат
          Рейтинг: 30
          КТ "Акведук"
          ИТ-директор
          14.11.2013 17:56

          Мндя. RFID - это недешево. Мне кажется, что одноразовое белье обошлось бы дешевле, даже если его сделать не таким убогим, как сейчас.

          • Марк
            14.11.2013 18:11

            Нет, там все хитрей. Я планирую написать проект этот тоже подробней. Они ведь работают не только с РЖД, но с гостиницами, больницами, фитнес центрами. На одноразовые там не перейдешь, и их бизнес - владеть этим текстилем, и только давать его "в лизинг". Поэтому им надо, чтобы он хорошо оборачивался, но не терялся. Интересно дело: казалось бы, ну промышленная прачечная, ну что там такого может быть! а пожалуйста, решения любопытные.

            • Михаил Петров
              Рейтинг: 809
              Счетная палата Российской Федерации
              Директор департамента цифровой трансформации
              15.11.2013 09:12

              да, было бы интересно

        • Михаил Петров
          Рейтинг: 809
          Счетная палата Российской Федерации
          Директор департамента цифровой трансформации
          15.11.2013 09:11

          а можете пояснить, как тут участвуют "большие данные"? звонит пассажир, говорит "не нравится", оператор клацает кнопочку или ставит галочку, сигнал пошел - "поменять"... нет?

          • Михаил
            15.11.2013 11:13

            Лучше конечно объяснит сам их ИТ директор, но я запомнила примерно так. Пример со сменой белья - пример сопоставления неструктурированных - звонки - и структурированных данных - кто где кому какое белье выдавал. Надо учесть, что речь идет о данных двух разных организаций. Интеграция автоматическая - никто не клацает ничего. Оператор - сотрудник РЖД - просто фиксирует обращение - для своих нужд. Дальнейший запуск процесса в Коттенвее генерируется автоматически.
            Зачем большие данные коттонвею? В основном для того, чтобы следить, что происходит с каждым отдельным полотенцем, когда оно куплено, кому его давали, сколько раз, сколько стирали, сносилось или нет, когда его менять. С другой стороны - кто покупал, кто давал, кому - поименно со стороны контрагентов, кто стирал и проч, в общем, как процесс соблюдали свои конкретные сотрудники. Учитывая чисто элементов текстиля и число операций с ними - это вполне большие данные.
            Самое главное - результатик. На 40% закупки нового текстиля сократили. Это их актив и их главный ресурс.

            • Виктор Федько
              Рейтинг: 367
              Независимый эксперт
              Эксперт
              15.11.2013 12:01

              Фактически, это система соотнесения остатков на складах, "запусков в производство", количество ремонтов и т.п. На выходе - сокращение складских запасов, прямая экономия оборотных средств. Если так - то игра стоит свеч в любом случае.
              А ведь на первый взгляд звучит несколько комично - ИТ на службе отслеживания полотенец - кому, куда, сколько.
              А на поверку - реальная экономия денег.

  • Татьяна Орлова
    Рейтинг: 377
    ЗАО "ЕС-лизинг"
    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
    14.11.2013 16:38

    У нас уже год работает Центр Компетенции по Большим данным IBM. Основные сложности - слабое использование русского языка, плохая подготовка локальных кадров вендора и проведение аналитических работ должного качества. Пришлось все осваивать самим, включая обучение.

    • Виктор Федько Татьяна
      Рейтинг: 367
      Независимый эксперт
      Эксперт
      14.11.2013 16:51

      А в чем основная проблема? Данные обрабатываются, но плохо поставлена аналитика? То есть, как их использовать? Или еще что-то ?

      • Татьяна Орлова Виктор
        Рейтинг: 377
        ЗАО "ЕС-лизинг"
        Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
        14.11.2013 20:27

        С самой обработкой данных проблем нет, язык простой, особенно если персонал опытный. Но, как мне говорили, плохо ищется и обрабатывается русскоязычная информация. Ребята понемногу учатся этой специфике, есть интересные результаты. Ну и с аналитикой тяжело. Хороших аналитиков вообще мало, и научить машину думать совсем не просто, в данном случае Watson. Поэтому и говорят,. что Data Scientist будет самой востребованной профессией в ближайшем будущем. Их уже сейчас не хватает, а ведь работа с Big Data у нас только началась.

        • Виктор Федько Татьяна
          Рейтинг: 367
          Независимый эксперт
          Эксперт
          14.11.2013 20:34

          Понятно. Во многом у нас так. Начинается работа, а потом думаем - а кто будет собственно работать.
          То есть,основная проблема - плохо настроенный на русский язык движок-поисковик. На слова, на сочетания. Про смысловые формы уже не говорю.
          С аналитиками тоже ситуация понятная и знакомая.

          • Татьяна Орлова Виктор
            Рейтинг: 377
            ЗАО "ЕС-лизинг"
            Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
            14.11.2013 20:42

            Вот поэтому наши за это и взялись: опыт большой, научились кое-чему, теперь "работу работают" и других учат :-) Результаты очень интересные: например, какя может быть связь между перезагрузкой серверов и дождем? А ведь нашлась :-)

  • Татьяна Орлова
    Рейтинг: 377
    ЗАО "ЕС-лизинг"
    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
    14.11.2013 20:51

    Думают... Детали разглашать не могу, да пока и не знаю: только сегодня коротко сообщили, сами удивились :-) Найду время - обязательно поинтересуюсь, надо будет заняться этим всерьез: уж очень заманчиво построить какую-нито систему управления ИТ на Big Data.

    • Виктор Федько Татьяна
      Рейтинг: 367
      Независимый эксперт
      Эксперт
      14.11.2013 21:48

      Понятно. Мистика какая-то. Но было бы интересно познакомиться поближе с методикой и со всем остальным. Поподробнее. Вот ведь революция может произойти во всем ИТ.

      • Татьяна Орлова Виктор
        Рейтинг: 377
        ЗАО "ЕС-лизинг"
        Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
        15.11.2013 10:47

        Ну вряд ли мистика :-) С разбегу могу предположить, что такая связь в конкретном месте может обозначать наличие повышенной влажности, т.е. проколы в инженерном обеспечении. По большим данным есть уже много информации в сети, в LinkedIn и бесплатные вебинары на BrightTALK .

  • Виктор Федько
    Рейтинг: 367
    Независимый эксперт
    Эксперт
    15.11.2013 11:09

    Понятно, спасибо. Довольно интересная тема. Кто знает, что нас ждет в итоге изучения проблемы больших данных.

    Дело в том, что самые интересные и изящные научные результаты
    сплошь и рядом обладают свойством казаться непосвященному заумными и
    тоскливо-непонятными. Люди, далекие от науки, в наше время ждут от нее
    чуда и только чуда и практически не способны отличить настоящее научное
    чудо от фокуса или какого-нибудь интеллектуального сальто-мортале. Наука
    чародейства и волшебства не составляет исключения. Организовать на
    телестудии конференцию знаменитых привидений или просверлить взглядом
    дыру в полуметровой бетонной стене могут многие, и это никому не нужно,
    но это приводит в восторг почтеннейшую публику, плохо представляющую
    себе, до какой степени наука сплела и перепутала понятия сказки и
    действительности. А вот попробуйте найти глубокую внутреннюю связь между
    сверлящим свойством взгляда и филологическими характеристиками слова
    "бетон", попробуйте решить эту маленькую частную проблемку, известную
    под названием Великой проблемы Ауэрса! Ее решил Ойра-Ойра, создав теорию
    фантастической общности и положив начало совершенно новому разделу
    математической магии.

    Аркадий и Борис Стругацкие "Понедельник начинается в субботу"

    • Виктор
      15.11.2013 14:04

      Да бросьте вы - магия:)) Хотя Роман Ойра Ойра всегда был молодец. Самое главное концепт. Вот скажем на конференции Teradata, где мне довелось быть, рассказывали такие байки. Начинают анализировать данные о школьниках. Видят - есть связь: показатели чтения увеличиваются синхронно с размером обуви! Чем больше размер, тем лучше читает ребенок! Открытие же! Ан, не совсем. Уважаемые не приняли в расчет возраст. Просто, чем старше - тем читает лучше, ну и размер меняется заодно. Это примерчик того, что корреляция не означает причинной связи. Всю конференцию про это твердили, что разные это вещи - корреляция и причинность. А было и много примерчиков посерьезней, из бизнеса. Где тоже не очень-то понятно было, что первично. Модели какие-то надо, гипотезы. А где взять? Нету. Все и жаловались, что нету. Только появляются.

      • Виктор Федько
        Рейтинг: 367
        Независимый эксперт
        Эксперт
        15.11.2013 14:17

        Я думаю, что жаловались в основном на отсутствие моделей. Гипотез то обычно больше бывает. А уж что первично, а что вторично, что причина, а что следствие - вообще темный лес. Тут работы невпроворот.

Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.