Big Data – пузырь лопнул?

4 августа 2014
20

Мы чувствовали, что в Big Data есть какой-то подвох, что не может быть все так просто и гладко — возьми совковую лопату, нагреби побольше данных и анализируй вдоль и поперек. Авось что-нибудь интересное обнаружится. Чем больше данных, тем лучше. Любые источники. Модели заранее строить не надо.

Когда мы сомневались, нам предъявляли убедительные примеры торжества Big Data. Самым любимым у многих апологетов этой парадигмы был Google Flu Trends — графики убедительно показывали, что всемогущий GFT предсказывает эпидемии гриппа быстрее и надежнее, чем врачи, анализируя сотни миллиардов запросов пользователей. Логика за этим стояла довольно простая — люди начинают болеть, идут в Google, чтобы найти описания лекарств или адрес аптеки.

Этот пример кочевал из презентации в презентации, из статьи в статью (и я грешен, тоже писал про GFT), попал даже в серьезные книжки. А оказалось — пшик! Точность не лучше, чем у нашего Гидрометцентра. Первый звоночек был еще в 2009, вскоре после запуска GFT, когда он совершенно пропустил мировую эпидемию «свиного» гриппа. В 2012 система вновь дала сбой — GFT более чем в два раза переоценил пик очередной эпидемии. (Пишет журнал Nature.)

Разумеется, нельзя сказать, что GFT совсем не работает: корреляция между фактическими данным о заболевании гриппом и поисковыми запросами есть, но она не настолько надежна и однозначна, чтобы принимать серьезные решения.

Не читайте советских газет перед обедом! (Да и всех других тоже)

Google никак не комментировал свой промах 2012 года. Однако, скорее всего он был вызван тем, что в этот год пресса очень много писала о гриппе, который начался раньше чем обычно — что уже новостной повод, люди читали газеты и шли в Интернет, чтобы посмотреть информацию о лекарствах. Получилось вот такое искажение действительности благодаря СМИ.

Вот еще один, наивный на мой взгляд, эпизод из жизни Больших Данных. Аспирант из Оксфорда Sean Gourley решил, что можно построить математическую модель того, как возникают очаги вооруженных конфликтов и даже предсказывать их начало. Построил он свою модель на основе анализа 130 новостных источников и SMS-сообщений журналистов-фрилансеров, находящихся в тех местах. Аспирант случайно встретил в столовой Оксфорда бывшего директора ЦРУ — и, видимо, получил неплохое финансирование.

Перенесемся в наши реалии. Даже страшно представить, какую картину нарисует нам подобная аналитическая система, если принять за чистую монету все, что пишут наши СМИ и говорят по телевизору — покажется, что Третья мировая уже идет полным ходом, не иначе. А анализ постов в социальных сетях даст скорее данные для диссертации по психиатрии, чем позволит строить какие-то прогнозы. Ведь аспирант из Оксфорда не был в курсе про наши «диванные войска» :)

Мусор на входе — мусор на выходе

Любой аналитик знает, что качество и достоверность данных это первейшая вещь. Поэтому просто черпать данные из Интернета и строить на их основе бизнес-стратегии по меньшей мере неосмотрительно.

Поэтому самая большая проблема в Больших данных — это собственно, данные. На мой взгляд, все, что касается людей, не стоит слишком брать на веру. Люди врут — и в обычной жизни и в соцсетях. «Лайки» не всегда говорят об истинных предпочтениях. Поэтому всякие маркетинговые акции, спецпредложения, программы лояльности и прочие «заманухи» для клиентов — не более чем очередная лапша на уши.

Маркетинг и реклама на основе Больших данных такая же не слишком предсказуемая вещь, как и без них. Но с аналитикой — дороже. (Конечно же я утрирую ситуацию, если подойти к Биг Дата умом, то... Но кто же подходит с умом, когда можно быстро впарить и убежать?)

Big Data — прощание с иллюзиями

По мнению компетентных товарищей из Gartner, на кривой hype cycle Big Data сейчас находятся в фазе «прощания с иллюзиями», когда первое романтическое увлечение прошло и пользователи стали больше обращать внимание на проблемы и подходить к вопросу более прагматично. Это трудное время для поставщиков — сливки уже сняты, дальше надо упорно и качественно работать, на что не все способны. К тому же, гиппопотамы рынка уже соориентировались и тоже пошли в этом направлении, сужая поле маневра для стартапов.

Дальше будет, как было уже много раз: сегментация, вертикализация, больше профессионализма, меньше понтов. Биг Дата не минует чаша сия — одними красивыми картинками уже не отделаться, нужны хорошие модели и гипотезы, которые подтверждаются или опровергаются экспериментальными данными. Ибо сколько ни пялься в инфографику, ничего из нее непонятно, если за этим нет какой-то фундаментальной идеи.

Об эпифеноменах: дурак с Big Data опаснее, чем обезьяна с гранатой

Эпифеномен — это иллюзия причинно-следственных связей, когда мы наблюдаем два явления, происходящие совместно, однако никак не связанные между собой. Использование Big Data в отсутствие четких моделей предметной области может породить большое число таких ложных «открытий». Если об этом напишут ученые статьи и забудут — не страшно. Но если эти теории проникнут в менеджмент и в госуправление — нам хана.

Подробно об эпифеноменах говорит Н. Талеб в «Антихрупкости». Если птицам читать лекции об теории полета, то они станут летать — вы в это не верите, это же глупо, не так ли? А вот следующий пример: В богатых странах проводится больше научных исследований, поэтому можно предположить, что наука порождает богатство. Это уже более правдоподобно, да? И вполне коррелирует с житейской мудростью — «если ты такой умный, то почему такой бедный?» На самом деле в мире все было наоборот — сначала некоторые страны заполучили богатство, а уж потом стали развивать науки. В бедной стране наука невозможна.

Так вот, Big Data в руках не слишком грамотных энтузиастов — это идеальный инструмент для открытия и продвижения эпифеноменов. Для обоснования решений властям нужны какие-то цифры, с помощью новой технологии можно найти любые, которые подтвердят де-факто принятое решение.

Таргетированная реклама при помощи Big Dat — это по прежнему стрельба в темноту, пишет Forbes. Пока нет доказательств, что все эти методики, построенные на анализе cookies, социальных медиа и прочего хитроумного «таргетинга» устойчиво работают. Да и вы сами сто раз с этим сталкивались — когда контекстная реклама бьет мимо, нисколько не отвечая вашим интересам.

Не забывайте: все данные — это о прошлом

Предсказательная способность Big Data сильно преувеличена. Например, во время праймериз по выборам в Конгресс в Вирджинии, согласно аналитикам должен был победить Эрик Кантор из Республиканской партии, он шел с отрывом в 34% от соперников. Однако, сокрушительно проиграл — минус 10%. Ошибка была в том, что модель ориентировалась на «типичных избирателей», учитывала их историю голосований, поведение и предпочтения. Но в этот раз явка оказалась сильно выше, чем обычно, в игру включились избиратели, которые не вписывались в модель.

Здесь фундаментальная проблема, а не ошибка одной команды аналитиков. Везде, где есть человеческий фактор, есть очень большой риски, что паттерн, который вы обнаружили, больше не повторится. Люди — они, знаете ли, такие переменчивые в своих привычках и убеждениях... Поэтому никакой анализ прошлого не может дать надежных выводов относительно будущего.

Так что все эксперименты с Big Data в маркетинге, продажах, экономике, политике, социальных процессах, романтических отношениях — пустая трата сил. В любой момент может появиться новый фактор влияния, который сломает все ваши умозаключения. Как, например, озабоченность правительства здоровьем нации запустила волну публикаций, которые запутали Google Flu Trends.

Нам трудно свыкнуться с мыслью, что будущее в принципе непредсказуемо. Раньше за прогнозом обращались к шаманам или жрецам, сейчас — к аналитикам. Big Data призвана внушать доверие, точно так же, как хрустальный шар и прочие атрибуты профессии предсказателя.

Big Data в естественных науках — да!

Однозначно, технология Big Data может быть полезна в естественных науках, там, где сначала у нас есть строгая математическая модель и понимание физики процесса. На ее основе можно строить гипотезы и проверять их экспериментальными данными — здесь Big Data самое место.

Как жить дальше

Я далек от мысли считать всю Big Data надувательством. Просто вокруг этой темы подняли столько нездоровой шумихи, что уже и правды не видно. Сейчас похоже, что маркетинговый пузырь все-таки лопнул — появилось большое число критических публикаций, развенчивающих мифы о всемогуществе технологии. (Я собираю подобные истории у себя на странице в Facebook — Anti Big Data, если захотите чем-то поделиться — милости прошу!)

Как обычно, есть временной лаг между Западом и Россией, поэтому нам еще предстоит послушать изрядное количество презентаций, как Big Data творят чудеса, но это тоже пройдет.

Дальше, я считаю, произойдет вот что: Big Data спрячется внутри разнообразных отраслевых решений, где во главе угла будет все-таки знание предметной области и опыт, а в подкрепление ему — аналитика, в разумной дозировке и по понятным моделям.


10002
Поделиться
Коментарии: 20

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Дмитрий Кудрявцев
    Рейтинг: 10
    CIO-on-demand.ru
    партнёр
    05.08.2014 17:10

    Вообще первый признак незрелости позиции - радикальность. Я вот почитал введение и заключение и понял, что вы из неопределившихся: то "за" Big Data, то теперь "против".

    Всё-таки, полярного - и истинного одновременно - мнения по такой весьма инновационной и сложной отрасли анализа быть не может. Ну нет пока AI в Big Data, а модель сбора данных и причинно-следственного анализа как настроишь, так и полетит. И вообще, а где AI есть на потоке реальных данных?

    Но алгоритмы - вопрос времени. Тут дело в том, насколько мелкая ячейка в сети, собирающей информации. И насколько эту сеть часто забрасывают. Что нужно, чтобы построить прогноз на ретроспективных данных и вероятностях: массив событий и корреляционная модель. Когда мы говорим о социальном информационном поле, нужно, чтобы вовремя срабатывали маркеры статуса: заболело, захотел, поинтересовался, выразил мнение. Отсюда выросла целая индустрия социализации жизни через <полностью журналируемые> технологии интернет. Не потому, что facebook или twitter делает жизнь лучше, а пространство - теснее.

    Хотя, возможно, я слишком перегибаю палку и заговора тут нет, хотя пахнет им при здравом рассуждении очень даже заметно.

    В любом случае, AI в робототехнике растёт семимильными шагами. В типовых ситуациях, конечно, но скорость обработки типичных алгоритмов реакций и количество таких реакций там множится, как пыльное облачко в степи при порыве ветра. Просто на роботах проще: мы учим их "статичным" моделям, не сильно обусловленным миллиардом вероятностей.

    Никакой принципиальной разницы в подходах тут нет, но наработать базис надо.

    Думаю, прорыв начнётся после того, как мы научимся управлять ДНК. На биологическом уровне (а это самая примитивная компонента человеческого существа и самая сложная модель познания из современных в науке) научиться управлять результатом - основа движения дальше.

    И если Big Data полезли в социальный уровень, у которого на несколько порядков сложнее устройство - это просто надежда, мечта. Но сегодняшние ошибки не означают, что ей не воплотиться в будущем.

    • Станислав Макаров Дмитрий
      Рейтинг: 13
      Независимый эксперт
      13.08.2014 18:19

      Во-первых, я все-таки "за" Big Data, но против навешивания лапши публике на уши. Технология еще не очень зрелая, и многие факапы связаны скорее с отсутствием моделей. Данные есть, а ответов адекватных нет.
      Про робототехнику хотелось бы узнать подробнее, скорее всего здесь и для Big Data работа найдется, но все же знак равенства между Big Data и Ai я бы ставить не стал.

  • Виктор Федько
    Рейтинг: 217
    АО МПО им.И.Румянцева
    Зам. начальника управления информационных технологий
    06.08.2014 08:43

    В этой дискуссии уже высказывались некоторые сомнения в безгрешности и всеохватываемости этой "прорывной" современной технологии.

    То, что это изначально было огромным и тщательно раздуваемым пузырем - очевидно. Говорили тут и об этом. Идея прекрасная, маркетинговая. Подскочила востребованность аналитиков. Увеличились продажи соответствующего оборудования, хранилищ данных. ПО для обработки и анализа. То есть, заработали все. Более того - рассчитывают зарабатывать и дальше.

    Я бы не называл это просто пузырем - все-таки, некое рациональное зерно в системе применения БД есть. Другое дело, что не надо это было сразу обожествлять. Соберите, обработайте и делайте на основе анализа любые долгоиграющие выводы. Так все это примерно звучало. Широкая рекламная акция, которая имела успех. Чистый бизнес.

    Понятно, что анализ БД - это анализ прошлого. А делать выводы, исходя из "того, что было" - вещь опасная и очень тонкая. Тут нельзя полагаться на 100 %. А многие начали это делать и теперь объявляют, что БД - это большое надувательство. Да естественно - реклама и все прочие саги и оды БД своей цели достигли.

    Я не думаю, что пузырь лопнул. Я думаю, что необходим более взвешенный подход к БД, к их обработке и прогнозной аналитике. Сейчас должен начаться процесс переосмысления этих технологий, более тщательная выработка критериев использования и применения.

  • Михаил Козлов
    Рейтинг: 10
    Rostelecom/ Ростелеком
    Директор проектного офиса разработки бизнес-платформ
    13.08.2014 18:12

    ИМХО просто нужно разделять big data и бизнес-аналитику. Если рассматривать BD как развитие технологий ETL для уменьшения вселенной до объемов, на основе которых можно строить модели для анализа, то экстремизм сразу идет на убыль ;)

    Тема обсуждалась много раз, например, вот в таком разрезе: http://www.slideshare.net/mkozloff/bigdatavsbi

  • Андрей Костяшин
    Рейтинг: 10
    ООО "АйДи - Технологии управления"
    ЗГД, Директор практики 1С
    14.08.2014 10:41

    Самое время начать готовиться к "повзрослевшему" варианту Dig data, саму эту дату скрупулезно собирать и хранить (сейчас это не дорого).

    • Алексей Колоколов Андрей
      Рейтинг: 10
      Институт бизнес-аналитики
      Директор
      14.08.2014 21:43

      Готовиться имеет смысл, когда компания повзрослеет по всем необходимым критериям:
      - технологии обработки данных (Big Data)
      - технологии обработки и анализа информации (Bisiness Intelligence)
      - методы анализа информации и принятия решений (управление по KPI)

      Как правило, в первое мы все дружно любим инвестировать, забывая о том, что последнее остается на уровне 90х годов и помножает предыдущие пункты на ноль

  • Александр Огнивцев
    Рейтинг: 60
    Атомстройэкспорт
    Зам директора по ИТ
    25.08.2014 12:50

    Совершенно не согласен с тем, что "Big Data в естественных науках - да!". Как раз в естественных науках давно присутствует стандартный алгоритм - сначала строится некоторая математическая модель, а потом начинается подтягивание за уши доказательной базы. И в этом смысле Big Data идеальный инструмент - обладая хотя бы неплохим знанием матстатистики можно скоррелировать что угодно, с чем угодно и, вуаля!, доказать что на направления миграции стерхов влияют фазы Нептуна. Сколько подобных исследований и доказательств регулярно можно услышать от "британских ученых"...

    • Станислав Макаров Александр
      Рейтинг: 13
      Независимый эксперт
      04.09.2014 12:46

      Мы же говорим о нормальных ученых, не так ли? А стерхи - дело политическое. Куда покажут им, туда и полетят. Если что - истребители укажут верный курс. Тут Биг дата не нужна.
      Если серьезно: возьмем для начала физику. Биг Дата вполне пригодится для анализа экспериментальных данных. Попадались интересные кейсы про климатические исследования, можно и еще поискать. В целом вы правы - сначала нужна модель. А уж притянуты данные за уши или нет, это на на совести исследователя. А вот уж в маркетинге и продажах сами модели часто высосаны из пальца, там Биг Дата скорее вредны. (на мой личный взгляд). За то клиент готов платить.

  • Александр Бейдер
    Рейтинг: 10
    TerraLink
    Директор по цифровым технологиям
    04.09.2014 10:40

    Коллеги,
    все это позапрошлый век.
    На пороге реальные технологии: BIG CONTENT,
    Готовьтесь и трепещите!!!

    • Марк Шварцблат Александр
      Рейтинг: 10
      КТ "Акведук"
      ИТ-директор
      04.09.2014 10:50

      Уже страшно. :) А это точно не еще один "тонкий" маркетинговый ход? :)

    • Виктор Федько Александр
      Рейтинг: 217
      АО МПО им.И.Румянцева
      Зам. начальника управления информационных технологий
      04.09.2014 11:10

      То есть, ребрендинг ? Слово DATA заменили на CONTENT ? Чувствую, это "та же Машка, но в другом сарафане")))

  • Александр Бейдер
    Рейтинг: 10
    TerraLink
    Директор по цифровым технологиям
    04.09.2014 23:14

    Виктор Александрович, дорогой. Ну что ж Вы о нас о простых документоборотчиках так плохо думаете?! Данные и контент это сугубо разные вещи.

    Что по вашему БигДата - это по нашему просто свалка в соц.сетях. Что там можно извлечь? Отношение народа, скажем, к новому законопроекту или предпочтение Колы перед Спрайтом...

    Мы говорим БигКонтент, а подразумеваем Биг БИЗНЕС Контент. Это другие задачи - и с точки зрения защиты интеллектуальной собственности, и информационной безопасности, и готовности к решению споров в судебном порядке.

    Понятно, что это не здесь, не сейчас и не с нами. Но иметь в виду надо.

    А что касается анализа данных для естественных наук, ну так этим в лабораториях Березовского небезизвестного и Мучника менее известного занимались еще в ИПУ на рассвете развитого социализма. Или тот же Гоша Сатаров, семинары по анализу данных в ИПУ вел, вот был реально гуру в этой области. Я ему в рот смотрел и каждое слово ловил. Он советником Ельцина потом был одно время. А на чем вырос - на анализе данных социсследований. Разница только в количестве данных, и все.

    В чем новизна - убей не пойму? Берем Хану или Хадуб, все в памяти, критерий Хи квадрат или корреляцию Раскела-Уоллеса (мож чего путаю, надо старую публикацию свою найти) никто не усовершенствовал до сих пор, и все закономерности как на ладони.

    Анализ контента, и еще раз анализ контента - вот что должно стать девизом каждого серьезного исследователя! Вот истинное знамение нашего времени, как ни крути!

    Документированно Ваш,
    АБ

    • Виктор Федько Александр
      Рейтинг: 217
      АО МПО им.И.Румянцева
      Зам. начальника управления информационных технологий
      05.09.2014 08:15

      Я о Вас думаю хорошо. ))). Я не очень хорошо думаю об всей этой свистопляске с BIG - имхо перегрето много.
      И соглашусь с Вами в том, что все это хорошо забытое старое.
      Неприлично ссылаться на самого себя, конечно, но вот нашел свою совсем не старую публикацию :))) . Собственно, об этом же и говорили.

      • Станислав Макаров Виктор
        Рейтинг: 13
        Независимый эксперт
        11.09.2014 10:12

        Виктор Александрович, могли бы вы сделать доклад у нас на конференции по Big Data?
        4 декабря, подробнее здесь. Критический взгляд со стороны практиком как раз очень нужен, чтобы остудить пыл некоторых маркетологов))

        • Виктор Федько Станислав
          Рейтинг: 217
          АО МПО им.И.Румянцева
          Зам. начальника управления информационных технологий
          11.09.2014 10:26

          Большое спасибо за приглашение. Пока ничего не могу сказать, как-то с докладами выступать не приходилось. Мероприятие еще не скоро, я подумаю. Можно выступить в обсуждениях и т.п

  • Александр Бейдер
    Рейтинг: 10
    TerraLink
    Директор по цифровым технологиям
    05.09.2014 08:45

    Вот абсолютно точно сказано:

    4. Основным фактором ускорения технологий, на мой взгляд, может стать
    появление пласта специалистов -аналитиков по обработке БД. Умеющих
    правильно составить алгоритм сбора и размещения информации.
    Грамотно разработать аналитическую отчетность.

    Если только терминологию немного осовременить, а в главном - все так и есть. Инструменты такого рода без профессионалов не работают.

    Это как самому лекарство в аптеке покупать. А еще хуже - без образования консультировать по лечению чего-нить серьезного....

    В общем, недопонимаю я чего-то в больших данных...Загадочные они. С контентом все гораздо понятнее ))

  • Виктор Федько
    Рейтинг: 217
    АО МПО им.И.Румянцева
    Зам. начальника управления информационных технологий
    29.09.2014 15:42

    Вот! До кучи))). И Gartner прорезался на эту тему.

  • Марк Шварцблат
    Рейтинг: 10
    КТ "Акведук"
    ИТ-директор
    02.10.2014 12:01

    Chief analytics officer: The ultimate big data job?

    The C-suite may need a bigger boardroom. As organizations expand their executive teams with new C-level titles that underscore their digital transformations in-progress, the role of chief analytics officer is gaining traction.

    Driven by organizations' desire to turn big data into a strategic asset, the CAO is finding a home in data-rich industries such as financial services and healthcare. Although still not as prevalent as two other newish C-suite roles -- the chief digital officer and chief data officer -- the CAO may represent an inflection point in an organization's digital journey, signaling a move from managing data to applying it more strategically across the business.

  • Марк Шварцблат
    Рейтинг: 10
    КТ "Акведук"
    ИТ-директор
    15.10.2014 16:25

    How Big Data is transforming IT into a revenue generator

    I recently wrote a post about the emerging role of the Chief Data Officer (CDO). The CDO’s skill set varies drastically from the CIO, who typically has been concerned with running the data center and enterprise software. Instead, the CDO concentrates on how to incorporate data that resides within the enterprise with data that lives on external, consumer-facing platforms (Facebook, for example) — and how to make money in the process.

    Having a C-level executive examine business data and integration opportunities can tee up IT to become a revenue driver. It’s unusual for IT to collaborate with the business in the active pursuit of developing revenue streams, but we’re seeing real signs of this change.

  • Александр Громцев
    Рейтинг: 11
    ОАО "ССЗ " Вымпел"
    Начальник управления по ИТ
    11.03.2016 19:54

    Уважаемые! для меня понятие Big Data это сложность майнинга биткоинов с течением времени. За неполные 4 года сложность возросла в 50млн. раз. Если в начале сложность соответствовала 4-8 процессорным ядрам общего назначения, способным перебрать примерно 7 млн. хэшей в секунду (MH/s), то сейчас скорость совместных усилий по брутфорсу превосходит 7 петахэшей в секунду (PH/s). Остальное это красивая упаковка скорее – выжать деньги на инвестиции. BigContent уже понятнее, но тоже с практической реализацией сложно – у меня в работе другие порядки данных, они более чем скромные. Как мне кажется это вопрос алгоритмов. Все должны помнить операционную систему на дискете и Big Data того времени. Тогда тоже думали что Гигабайт это ну вообще огромный массив. Я писал на компе с памятью 48К – теперь мой сотовый это мэйн фрейм инопланетной цивилизации по сравнению с ним. 80 процентов контента в мире созданы за 2 года! Так что Big Data и Big Content еще и не начался , да и процессора станут иными и на иных принципах.

Предметная область
Отрасль
Управление