Большие данные в России: пилот. Часть 2.

14 ноября 2013
16

Начало обсуждения: Большие данные в России: пилот. Часть 1.

Перечисленные выше задачи решаются определенным набором инструментов, включающим Hadoop для сбора и хранения огромных объемов неструктурированных данных, поисковый сервер, лингвистические средства обработки текстов, поисково-аналитическую платформу анализа..

У нас для решения подобных задач есть собственный демо-стенд, основанный на платформе больших данных компании Oracle, включающей перечисленные средства. Поскольку основные данные в перечисленных постановках задач — текстовые, то важное место в таком решении занимают лингвистические инструменты, способные работать с русским языком и выполнять функции семантического поиска. Западные вендоры в этом направлении мало чем могут помочь. Российская лингвистическая школа и работающие в этой области отечественные компании, к счастью, способны предложить вполне адекватные средства.

Мы работаем с очень профессиональной компанией RCO, используем их инструменты, позволяющие извлекать определенные факты: персоны, организации, события, периоды времени, и многое другое. Инструментарий контекстного и смыслового поиска можно интегрировать в различные системы и платформы больших данных, он достаточно развит для того, чтобы представлять коммерческий интерес. (список некоторых возможностей). Кроме этого, мы используем и технологии компании ABBYY — ABBYY Recognition Server для распознавания документов и преобразования их в электронные форматы, ABBYY Compreno для автоматизированной обработки текстов.

Есть и другие поставщики подобных решений в России. Одни предоставляют готовые продукты и инструментарий для разработчиков, а другие решают определенные типы задач, например занимаются анализом социальных сетей по некоторой тематике. Есть инструменты и на базе ПО с открытым кодом, но их применение обычно требует участия специалистов-лингвистов.

При работе с сайтами социальных сетей и других интернет-источников возникает нетривиальная задача извлечения текстовой информации. Для каждого сайта требуется вычленять текст из баннеров, рекламы, изображений, которыми наполнены его страницы. Примечательно, что сейчас на открытый рынок выходят компании такой специализации, долгое время работавшие только на государственные, в основном силовые структуры. Удивительно, как много у них уже сделано: у одного из наших партнеров действуют более тысячи специализированных средств извлечения, каждый из которых позволяет получать тексты из определенного сайта, твиттера, блога.

Все эти инструменты, наряду с отечественными лингвистическими средствами, можно встраивать в существующие платформы больших данных, интегрировать с Hadoopи т.п. Мы интегрируем их с платформой Oracle, к которую кроме инструментов хранения и обработки больших данных входит среда класса data discovery — Oracle Endeca Information Discovery. Эта платформа поддерживает определенную идеологию исследования данных, основанную на так называемом фасетном поиске. Интерфейс этой системы настраивается на бизнес-задачу и должен обеспечивать возможности интуитивного анализа, т.е. подталкивать аналитика по верному пути, подсказывать направление поиска.

Для задач анализа неструктурированных текстов российские организации уже вполне готовы. Некоторые находятся сейчас, после удачного завершения пилотов, на этапе оценки экономической эффективности этих решений. Оценки могут быть как количественные, так и качественные, связанные с рисками, кратно превышающими стоимость любых ИТ-инициатив, как в случае с анализом репутации кредиторов.

Какие инструменты для обработки неструктурированной текстовой информации планируете применять вы?

5935
Поделиться
Коментарии: 16
  • Марк Шварцблат
    Рейтинг: 10
    КТ "Акведук"
    ИТ-директор
    19.11.2013 10:35

    Пришли тут с интересной задачей, к которой пока не понятно как подступиться. Из большого объема записанных голосовых данных call-центра хотят ПО ИНТОНАЦИЯМ и ключевым словам-фразам "выцеплять" проблемных клиентов, чтобы с ними работать отдельно. Причем в идеале вообще при разговоре переключать с обычного оператора на специально обученных людей.

    • Михаил Петров Марк
      Рейтинг: 349
      Счетная палата Российской Федерации
      Директор департамента цифровой трансформации
      19.11.2013 14:14

      наверное, еще и не только проблемных, а хоть сколько-то разбирающихся в предмете :) лежал тут несколько дней Сбербанк-онлайн, и я, позвонив в поддержку, такого наслушался на горячей линии :) коронной фразой, ВНЕЗАПНО услышанной от деффочко (иначе я ЭТО назвать не могу) с той стороны в ответ на мое спокойным тоном сделанное предположение о том, в чем проблема - было, с апломбом, "если вы разбираетесь в компьютерах, то должны бы знать...", дальше тот бред, который она понесла после этих слов, я от изумления даже запомнить не смог - помню только что бред :)))
      дальше я просто поставил эксперимент и терпеливо позвонил еще 3 раза и одними и теми же словами описал проблему. мне дали еще 3 (!) разные версии того что мне надо сделать - и все мимо. в итоге только 5я девочка, спокойно меня выслушав, подтвердила мое первоначальное предположение и решила проблему.
      думаю, что переключив меня сразу на кого-то квалификацией повыше - Сбер и себе бы сэкономил на времени девочек, и как-то о себе оставил более благоприятное ощущение у клиента... хотя, оно им надо? :)

      • Марк Шварцблат Михаил
        Рейтинг: 10
        КТ "Акведук"
        ИТ-директор
        19.11.2013 16:13

        Сильно. А что было с системой?

        "Имям" не особо.

        • Михаил Петров Марк
          Рейтинг: 349
          Счетная палата Российской Федерации
          Директор департамента цифровой трансформации
          19.11.2013 16:25

          Сильно. А что было с системой?
          у них было обновление системы... после него слетела на одной из моих карт подписка на услугу интернет-банк по этой карте + еще несколько глюков по мелочи
          "Имям" не особо.
          сорри, не понял...

          • Марк Шварцблат Михаил
            Рейтинг: 10
            КТ "Акведук"
            ИТ-директор
            19.11.2013 16:37

            Это я по-вятски... :) Диалектизм и местное устойчивое выражение. К примеру, "Имям говорено - имям неймётся". :) Имям = им.

            • Михаил Петров Марк
              Рейтинг: 349
              Счетная палата Российской Федерации
              Директор департамента цифровой трансформации
              19.11.2013 16:45

              аааа :)

      • Виктор Федько Михаил
        Рейтинг: 354
        Эксперт
        19.11.2013 18:20

        ответ на мое спокойным тоном сделанное предположение о том, в чем проблема - было, с апломбом, "если вы разбираетесь в компьютерах, то должны бы знать..."

        Вот тут и была твоя ошибка. Нельзя быть умнее оператора call-центра ))). .Ты своими предположениями выбиваешь девочку из колеи. Они же привыкли к определенному уровню общения. А тут, как говорил Задорнов, их просто "замыкает". Не знает ,что делать,не учили. Тебе повезло еще, что попал на квалифицированную в итоге.

        • Михаил Петров Виктор
          Рейтинг: 349
          Счетная палата Российской Федерации
          Директор департамента цифровой трансформации
          19.11.2013 18:41

          вот-вот, как тут где-то уже обсуждали - вместо того, чтобы тупо выполнять инструкции хотя бы - умничают :)

      • Виктор Федько Михаил
        Рейтинг: 354
        Эксперт
        19.11.2013 18:36

        Сбер и себе бы сэкономил на времени девочек, и как-то о себе оставил более благоприятное ощущение у клиента

        Вот уж об этом они не думают совсем. Или в последнюю очередь.. Крупный банк, монополист в чем-то. Нужен ты им особо))). На call-центрах вот экономят. Читал, что из Москвы выводят. На периферии дешевле .
        Хотя судя по этому , какой-то мониторинг они осуществляют.

    • Виктор Федько Марк
      Рейтинг: 354
      Эксперт
      19.11.2013 18:12

      А что, есть такие программы, которые интонацию уже вычисляют? Не слышал.

      • Марк Шварцблат Виктор
        Рейтинг: 10
        КТ "Акведук"
        ИТ-директор
        19.11.2013 23:07

        И я не слышал. Пока изучаю вопрос.

        • Виктор Федько Марк
          Рейтинг: 354
          Эксперт
          20.11.2013 07:44

          Поделись потом, как изучишь. Интересно довольно. Хотя сильно подозреваю, что направление это в зачаточной стадии и если какие разработки и имеются, то в виде пилотов и экспериментов. А уж стоить будет - мало не покажется..

    • Ольга Мельник Марк
      Рейтинг: 200
      Независимый эксперт
      19.11.2013 18:32

      Задача решаемая. Во всяком случае мне известен вот такой кейс: http://www.iemag.ru/interview/detail.php?ID=23964. Использовался продукт компании "Центр речевых технологий". Если вы считаете нужным привлечь их экспертов к обсуждению, можно попробовать сделать. Но это вообще-то задача другого класса, хотя тоже на больших массивах делается конечно.

      • Марк Шварцблат Ольга
        Рейтинг: 10
        КТ "Акведук"
        ИТ-директор
        19.11.2013 23:09

        Спасибо. Посмотрю и их.

        Большие данные, нетрадиционный поиск. Вполне в русле, как мне кажется.

  • Виктор Федько
    Рейтинг: 354
    Эксперт
    19.11.2013 18:52

    Очень интересный кейс, спасибо! Хотя, конечно, там больше про распознавание по словам и ключевым фразам, лексико-семантический анализ больше. По интонациям еще конечно работать и работать, до "готового продукта" довольно далеко.
    А уж по ключевым словам -тема давно известная и хорошо эксплуатируемая именно на прослушках.

Предметная область
Отрасль
Управление