Интеллектуальная поисковая система, основанная на когнитивном анализе данных

Заказчик
Научно-Технический Центр «Газпром нефти» («Газпромнефть НТЦ»)
Руководитель проекта со стороны заказчика
ИТ-поставщик
NAUMEN
Год завершения проекта
2018
Сроки выполнения проекта
Февраль, 2018 — Ноябрь, 2018
Масштаб проекта
12672 человеко-часов
100 автоматизированных рабочих мест
Цели

Разработка и внедрение универсальной поисковой системы, основанной на когнитивном анализе данных, для осуществления эффективного анализа и релевантной выдачи информации, существенного сокращения объемов информации, необходимой для изучения сотрудником, и времени на поиск данной информации.

Цели:

  • Предоставление «единого окна» для быстрого и точного поиска информации, хранящейся в различных форматах и на различных ресурсах компании;
  • Внедрение поискового механизма, позволяющего вести научную и аналитическую работу с результатами поисковой выдачи по различным источникам данных;
  • Расширение возможностей трансфера и управления знаниями между подразделениями и функциями «Газпромнефть НТЦ».

Уникальность проекта

Для более целевого и быстрого поиска необходимой информации были внедрены различные инструменты семантического и интеллектуального анализа данных:

  1. Интеллектуальный поиск
  2. Полнотекстовый семантический поиск (ведётся по всему содержимому документов) по запросам на естественном языке по контенту базы знаний организации. Запросы к поисковому сервису учитывают морфологию слов в запросе, понимают ряд сокращений и специализированных терминов. Выдача формируется на основании не только вхождения поискового запроса, но также и на основании семантического анализа контекста запроса и содержания документов.

  3. Фильтрация поисковой выдачи по набору параметров
  4. Позволяет оставить в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить в выдаче только документы с заданным типом (книги, НМД и т.д.).

  5. Расширение области поиска за счет расширения контекста запроса
  6. Расширение запроса — режим, который можно включить или отключить, нажав на кнопку в поисковой строке. Позволяет расширить контекст запроса, добавив в выдачу дополнительные документы с учетом автоматически формируемого к запросу списка семантических аналогов.

  7. Использование тезаурусов в поиске
  8. Позволяет найти неявные результаты за счет алгоритмов учета заложенных в тезаурусе связей. Например, при поиске «месторождения ХМАО» при включенном режиме в выдачу попадут не только документы, касающиеся месторождений ХМАО, но и конкретных случаев (Приразломное месторождение, Восточно-Ингинское и т.д.).

Использованное ПО

Программное обеспечение

  • Серверная ОС: CentOS7/Debian9 либо любой другой современный 64-разрядный Linux, Microsoft Windows (x64);
  • СУБД: PostgreSQL/PostgresPro версия 10 и MongoDB;
  • Рекомендованные браузеры (для работы пользователе с ПК): Internet Explorer версии 11.0 и выше, Google Chrome версии 65.0 и выше, Mozilla FireFox версии 60.0 и выше.
Описание проекта

Работы, выполненные в процессе реализации:

Разработанная система за счет внедрения когнитивного анализа данных, индекса максимального количества хранимой информации, введения функциональных онтологий осуществляет эффективный анализ и релевантную выдачу информации.

Инструменты, основанные на методах машинного обучения, позволяют повысить автоматизацию поисковых и аналитических задач сотрудников ГПН НТЦ, обеспечивают уровень информированности и позволяют более эффективно работать с большими объёмами информации.

В процессе реализации были разработаны следующие функциональные модули системы:

Модуль сбора и хранилища данных:

  • сбор неструктурированных массивов данных;
  • индексация внутренних и внешних источников данных;
  • систематизация, доступность и целостность исторических данных в коллекциях.

Модуль поисковой системы:

  • формирование релевантной поисковой выдачи для пользовательских запросов;
  • анализ близости документов;
  • обеспечение работы специализированных режимов поиска: расширенный поиск, поиск с учетом тезаурусов.

Модуль поискового портала:

  • рабочее место пользователей для работы с коллекцией документов, полученных в результате интеграции данных из внутренних и внешних источников;
  • интерфейс поиска;
  • инструменты управления поисковой выдачей (фильтры, расширение запроса семантически близкими понятиями);
  • механизмы настройки параметров системы (администрирование).

В процессе реализации были выполнены следующие работы:

  • Создана инфраструктура сервисов, которая включает в себя:

— Основное веб-приложение;

— Сервис для авторизации и управления правами;

— Сервис для доступа к данным из неструктурированного хранилища;

— Сервис полнотекстового поиска;

— Вычислительный кластер.

  • Разобраны файлы из внутреннего хранилища, извлеченный контент загружен в БД (хранилище неструктурированной информации).
  • Загружены наборы данных внешних источников:

— Нефть России (7 129 документов);

— AllPetro.ru (12 550 документов);

— NefteGaz.ru (52 259 документов).

  • Реализовано хранилище данных, обеспечивающее хранение структурированных и неструктурированных данных:
  • Проведена семантическая обработка загруженных данных:

— документы прошли необходимые этапы обработки: извлечение контента, лемматизация, фильтрация, формирование семантического пространства на базе обучающей выборки;

— рассчитана семантическая близость между документами;

— для каждого документа выделены ключевые слова;

— рассчитаны семантические аналоги слов при помощи применения версии реализации алгоритма word2vec;

— Загруженные в БД данные проиндексированы и доступны для поиска.

  • Для решения задачи формирования связей между объектами, был опробован подход использования направленного ациклического графа (тезауруса).

Результаты и их ценность для компании:

Информационное пространство и объем файлового хранилища компании (сейчас более 650 ТБ) постоянно увеличивалось, что приводило к увеличению временных затрат на исполнение бизнес-процессов, значительной частью которых является поиск релевантной информации.

Сотрудники Научно-Технического Центра тратили большое количество рабочего времени на поиск нужной информации. Отсутствие инструментов анализа и выявления релевантной информации приводило к росту числа принимаемых решений, основанных на недостоверной информации и в условиях недостаточного информирования сотрудников.

Среди ключевых результатов проекта можно отметить следующее:

  • Уменьшение затрачиваемого сотрудниками времени на поиск необходимых пользовательских знаний в 2 раза за счет внедрения централизованного инструмента поиска по различным источникам;
  • Расширение доступной базы для поиска за счет осуществления поиска по документам и форматам, ранее недоступным, таким как pdf, djvu и другие форматы, где требовалось предобработка графической информации в документах;
  • Сокращение затрат на анализ и проработку тематик и технологий, существующих в международной и российской практике;
  • Увеличение количества обращений экспертов и сотрудников к лучшим практикам и расширение внутренней кооперации, экспертизы и взаимной вовлеченности сотрудников;
  • Повышение качества и сокращение сроков принятия решений за счет повышения информированности сотрудников.

Сложности и риски:

Качество входных данных.

Часть материалов, предназначенных для обработки и анализа, была представлена в виде отсканированных документов. Качество сканирования сильно отличалось, многие документы были «зашумлены», что повлекло сложности с распознаванием информации и потребовало дополнительных действий по предобработке документов (дополнительная очистка, удаление нечитаемых фрагментов и нераспознанного текста).

География проекта
Разработка системы велась в офисах компании NAUMEN в Москве и Екатеринбурге. Система внедрена и функционирует в офисе компании Газпромнефть НТЦ в Санкт-Петербурге.
Дополнительные презентации:
Приложение 1. Презентация проекта_Интеллектуальная поисковая система.pdf
Коментарии: 6

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Александр Белоног
    Рейтинг: 30
    Мичуринский завод "Прогресс", АО
    заместитель начальника отдела ИТ
    26.11.2018 15:15

    Добрый день!
    Подскажите:
    1. Аппаратное обеспечение хранилища данных.
    2. Возможность поиска в конструкторской и технологической документации
    3. Возможность поиска видео и аудио информации
    4. Возможность формирования запроса голосом, фрагментом чертежа (или рисунка) или фрагментом видео
    5. При одновременном запросе от 100 рабочих мест, какова скорость поиска и факторы влияющие на скорость
    6. Дальнейшее развитие поисковой системы.

    • Елена Орелкова Александр
      Рейтинг: 12
      NAUMEN
      Менеджер по маркетингу
      10.12.2018 13:04

      Александр, добрый день!
      Благодарим за интерес к нашему проекту.
      Ниже приведу краткие ответы на Ваши вопросы.

      1. Аппаратное обеспечение хранилища данных.

      • Минимальная конфигурация для запуска приложения и возможности работы с проиндексированными данными в размере не менее 10000 документов: 4 ядра (2 ГГц или выше) и 8 ГБ ОЗУ;
      • Рекомендуемая конфигурация для обработки и поиска данных: 8 ядер и 32 ГБ оперативной памяти;
      • Объем дискового пространства для установки приложения: 500 Мб;
      • Объем дискового пространства для хранения индекса: зависит от объема обрабатываемых документов.
      2. Возможность поиска в конструкторской и технологической документации
      При наличии текстового слоя / текстового описания поиск по конструкторской и технологической документации возможен. 3. Возможность поиска видео и аудио информации
      Аналогично предыдущему вопросу, осуществляется при наличии текстового слоя / текстового описания.

      4. Возможность формирования запроса голосом, фрагментом чертежа (или рисунка) или фрагментом видео
      Голосовой помощник не планировался к подключению в рамках данного проекта.

      5. Дальнейшее развитие поисковой системы.

      Развитие в сторону персонализации поисковой выдачи и пользовательских рекомендаций контента, развитие инстурментов выявления неявных взаимосвязей между документами и аналитики.

  • Александр Белоног
    Рейтинг: 30
    Мичуринский завод "Прогресс", АО
    заместитель начальника отдела ИТ
    26.11.2018 15:24

    и ещё...
    6. при одновременном запросе от 100 рабочих мест, какова скорость поиска и факторы влияющие на скорость

  • Александр Артюхов
    Рейтинг: 303
    Организация "Агат", АО
    Руководитель проекта
    19.12.2018 18:18

    Проект интересный и нужный. Даже в прикладном плане. Насколько мне известно, Наумен планировал (интересно, что сейчас?) вставлять "движок" и в другие свои продукты, например, Сервис-деск. Что было бы вкупе с чат-ботами однозначно интересно.
    Возникает вопрос: а нет ли у заказчика задач, связанных с рутинной отчётностью или выдачами одних и тех же выборок по регулярным запросам? Решение по роботизации здесь напрашивается. Кроме персонализированного поиска...

  • Александр Балабанов
    Рейтинг: 310
    Айсберри
    CDO
    22.12.2018 10:25

    Евгений! Каковы результаты проекта в цифрах:
    1. Сокращение затрат на анализ...
    2. Сокращение времени сотрудниками на поиск...
    3. Увеличение числа обращений экспертов..

    Кто участвовал в проекте со стороны Заказчика - какова Команда проекта? Кто являлся постановщиком задач, определения проблематики? Каким образом проводилась приемка ИС в промышленную эксплуатацию - каковы критерии?

  • Роман Кузнецов
    Рейтинг: 450
    Счетная палата РФ
    Начальник отдела проектного управления и экосистемы ДЦТ
    22.12.2018 22:49

    Добрый день!
    В Газпромнефть НТЦ 66 тыс. сотрудников? Это не ошибка презентации?
    Внедренная система, думаю, активно используется сотрудниками НТЦ. Поиском информации научно-техническим специалистам приходится заниматься достаточно часто. Сколько ежедневных поисковых запросов? Напишите, если такая статистика ведется и информация не закрыта.
    Создание системы - серьезный шаг к формированию зрелой базы знаний. Какие направления развития рассматриваются?
    Вопрос по технологии: как происходит адаптация системы к новой информации? Все связи устанавливаются на основе проведенного на этапе внедрения обучения или параметры системы автоматически дообучаются?

Год
Предметная область
Отрасль
Управление