Большие данные и инструменты для них.

2 марта 2015
4

Кроме он-лайн активностей, таких как конкурс «Проект года»,  портал GlobalCIO проводит и офф-лайн мероприятия: встречи ИТ-директоров. Это камерное, на двадцать с небольшим участников, вечернее мероприятие, где звучат и обсуждаются доклады ИТ-руководителей и подрядчиков. Встречи бывают отраслевыми или тематическими. Одна из декабрьских встреч была посвящена большим данным, она была организована при участии компаний РДТЕХ и Oracle. Разговор был посвящен не столько продвижению каких-либо продуктов или услуг, сколько обсуждению, весьма бурному, некоторых концепций и подходов. Тем было две: теория эволюции аналитических систем предприятия и собственно большие данные, проблемы и инструменты их обработки.

Руководитель группы отдела аналитических систем РДТЕХ Михаил Козырь напомнил о ступенях эволюции аналитических систем от информационных систем руководителя (EIS), через системы поддержки принятия решений (DSS) к хранилищам данных (DW) и бизнес-анализу (BI), а затем и к связке «традиционного» Business Intelligence и Big Data.

Ранние системы управленческой отчетности или MIS (Management’s Information Systems) строились на основе данных промышленных систем. Отчёты разрабатывались по запросу бизнес- пользователя и имели, как правило, фиксированную форму. Стоимость разработки новых отчётных форм была достаточно высока, поскольку требовалось непосредственное участие программиста: ТЗ, разработка, отладка. Пользователь не имел возможности изменить или преобразовать отчётную форму. Кроме того, существенным недостатком такого подхода было то, что при анализе нагружались транзакционные системы, что неблагоприятно сказывалось на общей производительности.

Постепенно созревала идея обеспечить пользователя удобным инструментарием, чтобы он мог самостоятельно формировать требуемые отчётные формы. Однако транзакционные системы имели довольно сложную структуру данных и проектировались для обеспечения пропускной способности, а не для построения отчётных форм. Если предприятие эксплуатирует несколько транзакционных систем, то данные в них, как правило, не согласованы друг с другом. Становилось понятным, что существующие транзакционные системы слабо подходят для задач аналитической отчётности.

Был сделан вывод: почему OLTP (Online Transaction Processing) не подходит для аналитической отчётности.

Все вышесказанное, подчеркнул Козырь, обусловило появление экстрактов данных. Экстракт – это данные, по определённым условиям перенесённые из промышленных систем. Экстракты данных становятся очень популярными по двум причинам:

- снимается нагрузка с транзакционных систем и нет конфликтов на почве производительности;

- экстракты являются собственностью бизнес-пользователей и могут быть настроены под задачи аналитической отчётности.

Однако повсеместное широкое использование экстрактов привело к появлению так называемых «Spider Web» экстрактов. Сначала делается экстракт, затем экстракт из экстракта, затем экстракт из экстракта экстракта и так далее. Было в порядке вещей для большой компании обновлять 45 000 экстрактов ежедневно. Экстракты становились крайне сложными в сопровождении, терялось качество данных и доверие к данным. Экстракты отличались между собой по времени извлечения данных, по алгоритму формирования, у них мог быть разный источник и т.п. Назревала необходимости перехода от данных к информации.

В этот момент слово перешло к Андрею Пивоварову, руководителю группы перспективных технологий Oracle, а дискуссия сместилась к обсуждению проблем больших данных.

Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке больших объемов данных, считают в Oracle, отмечая недостаточность и неполноту многих других определений.

Почему о больших данных стали говорить? Пивоваров отметил следующие причины: технологии, раньше используемые только в веб-проектах (Hadoop, NoSQL), стали достаточно зрелыми, и уже не обязательно держать штат программистов, чтобы ими пользоваться. Появились новые возможности для получения конкурентных преимуществ: глубокий анализ поведения клиентов, высокоточная реклама, объединение и анализ данных из многих источников, в том числе неструктурированных, анализ мошенничеств и т.д. При всем этом Big Data технологии позволяют существенно удешевить хранение и обработку данных.

Почему удешевление так важно? Пивоваров напомнил, что, подешевев, самолеты совершили революцию в транспорте, удешевление сотовой связи сделало ее доступной для всех, увеличение объемов жестких дисков дало возможность хранения и воспроизведения видео на ПК, а удешевление доступа в интернет создало интернет революцию. "Значительное удешевление часто помогает сделать качественный скачок к принципиально новым возможностям" - подчеркнул он.

Пивоваров подробно рассказал о некоторых ключевых для работы с большими данными инструментах, в том числе о Apache Hadoop, Oracle NoSQL Database, Event Processing, Apache Hive. По мнению многих участников встречи, именно эта часть была самой информативной. Не имея возможности полностью здесь ее воспроизвести, отметим только следующие выводы.

Если задачу можно распараллелить, Hadoop может подойти для ее решения. Hadoop позволяет программистам очень просто писать параллельные программы. Многие задачи из области анализа данных параллелятся. Но не все задачи можно распараллелить, поэтому все же Hadoop – не панацея.

Для каких задач может использоваться Oracle NoSQL Database? Для построения быстрых многопетабайтных распределенных масштабируемых файловых хранилищ с возможностью обработки данных в кластере. Она нужна для построения систем, которые очень быстро накапливают огромное количество данных из многих источников: десятки миллионов записей в секунду. Это могут быть датчики, результаты испытаний, эксперименты, интеграция с системами обработки событий и накопление и обработка информации о событиях. Такие данные могут генерировать интернет-проекты с многими тысячами пользователей. Тогда NoSQL Database нужна для обеспечения мгновенного доступа к профилям пользователя, продукта, информации о рекламной компании и т.д.

Для того, чтобы начать работать с Большими данными, Пивоваров порекомендовал Oracle Big Data Lite Virtual Machine, которая содержит основные компоненты Big Data платформы Oracle, включая Hadoop и NoSQL DB. ПО бесплатно скачивается с OTN, постоянно обновляется, по нему есть много обучающих материалов .

В целом дискуссия показала, что ИТ-руководителей в первую очередь интересуют практические аспекты применения технологий, связанных с большими данными, и прежде всего потенциальные экономические эффекты. Сотрудниками РДТЕХ и Oracle был приведен ряд кейсов, в основном зарубежного происхождения, но весьма впечатляющих, однако присутствующих и они полностью не убедили, так как речь шла преимущественно о компаниях очень большого масштаба или проектах с высоким числом источников информации. К своей повседневной реальности присутствующие это «привязать» могли с трудом. Тем не менее новые технологические подходы, которые продвигает Oracle и ее партнер РДТЕХ, были очень интересны, хотя бы как близкое будущее.

3260
Поделиться
Коментарии: 4

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Виктор Федько
    Рейтинг: 298
    АО МПО им.И.Румянцева
    Зам. начальника управления информационных технологий
    04.03.2015 08:38

    Постепенно созревала идея обеспечить пользователя удобным инструментарием, чтобы он мог самостоятельно формировать требуемые отчётные формы.

    Идея эта созрела , насколько я знаю, лет эдак 30 назад)). Может быть и раньше. К середине восьмидесятых появились первые инструменты по созданию форм нехитрых отчетов пользователями. Такие, к примеру, как Adascript+ - средство разработки отчетов из СУБД ADABAS. Выглядело это, конечно, убого по сравнению с сегодняшним днем, но оно было. Пытались внедрить, кое-что даже получалось и кое-кто из пользователей даже пытался пользоваться.с переменным успехом. потом развитие , конечно, пошло более быстрыми темпами.

    при анализе нагружались транзакционные системы, что неблагоприятно сказывалось на общей производительности.

    Уже давно придумано лекарство от таких проблем - копии базы данных. Все аналитические отчеты запускаются не в продуктовой базе, а на ее копии по ночам и по выходным дням.

    Сначала делается экстракт, затем экстракт из экстракта, затем экстракт из экстракта экстракта и так далее. Было в порядке вещей для большой компании обновлять 45 000 экстрактов ежедневно.

    Красиво, конечно, но ни о чем не говорит. Можно до бесконечности вынимать матрешку из матрешки, в принципе. Весь вопрос в необходимости этого. То есть, понятно, что инструмент-то есть. Как построить систему, чтобы последний экстракт был тем самым важным и нужным?

    К своей повседневной реальности присутствующие это «привязать» могли с трудом
    .
    Вот и основная причина. Можно бесконечно долго и занимательно рассказывать о любом кулинарном продукте, слайды показывать, издали показывать сам продукт, но если ты этот продукт попробовать слушателям не дашь - все впустую.
    Так и здесь - грамотно и профессионально рассказано , видимо, было об инструменте. но как и где его его применить? Нужны конкретные живые примеры, желательно на российских реалиях. И начинать описание надо не с продукта-инструмента, а с проблемы, с примера. Обрисовывается ситуация, а потом показывается вариант выхода из нее с помощью того или того инструментария.

    В целом дискуссия показала, что ИТ-руководителей в первую очередь интересуют практические аспекты применения технологий, связанных с большими данными, и прежде всего потенциальные экономические эффекты.

    А вот и доказательство. Нынче CIO пошел другой , в основном. ))). Красивой железкой или привлекательной софтинкой его уже не заманишь. Для CIO это вторично. А важен именно практический аспект - где применить, для чего, с каким эффектом. Лучше всего - где уже применено и т.д. А уж потом, если убедят, можно поговорить и самих продуктах и прочих нюансах.

  • Ольга Мельник
    Рейтинг: 40
    Независимый эксперт
    04.03.2015 09:59

    Мне понравились несколько примеров, которые Oracle приводил. Во первых, турецкое образование. Туркам видимо не все равно как у них дети учатся. Поэтому они раздали 18 миллионов планшетов ученикам школ. Написали электронные учебники для этих планшетов. И отслеживают, как дети эти учебники читают: кто сколько на какой странице просидел, учитывают. Соответственно, о качестве учебников делают выводы. Понятно, что тут без больших данных никак.
    Другой пример был про испытания самолетов. Там же датчиков полно, генерируют они много чего, что на что влияет учесть, какие летные характеристики определяет - непросто. Airbus это делает.
    Был пример со страховой медицинской компанией, которая отслеживает правильность выписки рецептов - 8 млн.рецептов каждый день анализируется, ищут мошенничества и неверные использования препаратов. Особо красив пример с яхтой Oracle. Ларри Элиссон, оказывается, заядлый яхстмен, соответственно у фирмы есть гоночная яхта, для крупных соревнований в том числе. Она вся в датчиках. Ну и есть чем анализировать данные, поэтому решения по управлению яхтой принимаются не на глазок, а по науке. Тоже большие данные.
    Но нет у нас ни яхты, ни учебников....Единственное ближе к делу было - примеры с банками, тоже борьба с мошенничеством, наилучшее обслуживание клиентов, кросс-селлинг, персональные предложения.

  • Татьяна Орлова
    Рейтинг: 88
    ЗАО "ЕС-лизинг"
    Замдиректора по инновационной и экспериментальной деятельности, консультант по управленческим дисциплинам
    04.03.2015 19:09

    По поводу применения комплексных решений. Парадигма Больших данных такова - " Выбрать нужные данные по критериям из источников любого типа (неструктурированных, структурированных, видео и т.п.) - обработать (проанализировать) - предложить решение на основе анализа (а иногда и внедрить решение автоматически)". Не надо хранить все данные, можно сразу что-то сделать. Самое интересное - именно управленческая составляющая, то есть автоматизированное (или автоматическое) принятие решения и его реализация. Это есть не у всех вендоров. Сейчас на базе самообучающегося управленческого компонента (Watson) хорошо работают полноценные решения в финансах и медицине. В апреле откроется демонстрационный центр IBM Москва, где это можно будет "потрогать руками", а пока можно почитать. В России есть что-то подобное у одного банка.
    Для CIO, возможно, было бы интересно построить полноценную систему управления ИТ - инфраструктурой, где по итогам выбора событий и на основе их анализа автоматически реализуются те или иные управленческие воздействия: подключение или отключение дополнительных мощностей, установка ПО, перезагрузка компонентов, изменение расписания и последовательности выполнения действий, установка и изменение рабочего места и т.п. Очень интересно продумать аспекты управления информационной безопасностью как частью общего ИТ - ландшафта. Нечто подобное в том или ином виде есть по кускам, но нет целого, тем более обновляемого и полностью автоматизированного решения.
    В нашем центре компетенции Big Data есть свои реализации, пока без Watson. Мы сейчас включаем куски обработки внешних неструктурированных данных на базе этой технологии в функциональные куски комплексных внутренних приложений с целью дополнения их функциональности внешней частью. Есть задумки и реализации по безопасности, не информационной, а физической: анализ психотипов по голосу для выделения потенциально опасных людей, анализ видео - изображений с последующей проверкой персонала, работающего в потенциально опасных местах, на разные факторы риска и т.п.
    Что важно: нужна команда из управленцев, аналитиков и так называемых Data Scientists, где все понимают и дополняют друг друга. Команда строится под среду.

  • Михаил Рябко
    Рейтинг: 10
    АО МПО им.И .Румянцева
    Начальник отдела проектов 1С
    13.03.2015 08:14

    А вот и пример использования подоспел, ну или намеренье это использвать, подкрепленное деньгами. Рекламная платформа Segmento (разработанная компанией RuTarget) привлекла инвестиции Сбербанка, сообщили сегодня и банк, и компания, не раскрыв размер инвестиций. Платформа, которая работает на базе искусственного интеллекта и технологии Big Data, позволит Сбербанку использовать самый большой на российском рынке объем данных о поведении покупателей, говорится в пресс-релизе банка.
    http://top.rbc.ru/technology_and_media/12/03/2015/54c25d589a79478439e57458

Предметная область
Отрасль
Управление