Интеллектуальная поисковая система, основанная на когнитивном анализе данных

Заказчик:

Научно-Технический Центр «Газпром нефти» («Газпромнефть НТЦ»)

Руководитель проекта со стороны заказчика

Евгений Кирьянов

Руководитель проекта

Поставщик

NAUMEN

Год завершения проекта

2018

Сроки выполнения проекта

Февраль, 2018 — Ноябрь, 2018

Масштаб проекта

12672 человеко-часов
100 автоматизированных рабочих мест

Цели

Разработка и внедрение универсальной поисковой системы, основанной на когнитивном анализе данных, для осуществления эффективного анализа и релевантной выдачи информации, существенного сокращения объемов информации, необходимой для изучения сотрудником, и времени на поиск данной информации.

Цели:

Предоставление «единого окна» для быстрого и точного поиска информации, хранящейся в различных форматах и на различных ресурсах компании;
Внедрение поискового механизма, позволяющего вести научную и аналитическую работу с результатами поисковой выдачи по различным источникам данных;
Расширение возможностей трансфера и управления знаниями между подразделениями и функциями «Газпромнефть НТЦ».

Уникальность проекта

Для более целевого и быстрого поиска необходимой информации были внедрены различные инструменты семантического и интеллектуального анализа данных:

Интеллектуальный поиск

Полнотекстовый семантический поиск (ведётся по всему содержимому документов) по запросам на естественном языке по контенту базы знаний организации. Запросы к поисковому сервису учитывают морфологию слов в запросе, понимают ряд сокращений и специализированных терминов. Выдача формируется на основании не только вхождения поискового запроса, но также и на основании семантического анализа контекста запроса и содержания документов.

Фильтрация поисковой выдачи по набору параметров

Позволяет оставить в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить в выдаче только документы с заданным типом (книги, НМД и т.д.).

Расширение области поиска за счет расширения контекста запроса

Расширение запроса — режим, который можно включить или отключить, нажав на кнопку в поисковой строке. Позволяет расширить контекст запроса, добавив в выдачу дополнительные документы с учетом автоматически формируемого к запросу списка семантических аналогов.

Использование тезаурусов в поиске

Позволяет найти неявные результаты за счет алгоритмов учета заложенных в тезаурусе связей. Например, при поиске «месторождения ХМАО» при включенном режиме в выдачу попадут не только документы, касающиеся месторождений ХМАО, но и конкретных случаев (Приразломное месторождение, Восточно-Ингинское и т.д.).

Использованное ПО

Программное обеспечение

Серверная ОС: CentOS7/Debian9 либо любой другой современный 64-разрядный Linux, Microsoft Windows (x64);
СУБД: PostgreSQL/PostgresPro версия 10 и MongoDB;
Рекомендованные браузеры (для работы пользователе с ПК): Internet Explorer версии 11.0 и выше, Google Chrome версии 65.0 и выше, Mozilla FireFox версии 60.0 и выше.

Описание проекта

Работы, выполненные в процессе реализации:

Разработанная система за счет внедрения когнитивного анализа данных, индекса максимального количества хранимой информации, введения функциональных онтологий осуществляет эффективный анализ и релевантную выдачу информации.

Инструменты, основанные на методах машинного обучения, позволяют повысить автоматизацию поисковых и аналитических задач сотрудников ГПН НТЦ, обеспечивают уровень информированности и позволяют более эффективно работать с большими объёмами информации.

В процессе реализации были разработаны следующие функциональные модули системы:

Модуль сбора и хранилища данных:

сбор неструктурированных массивов данных;
индексация внутренних и внешних источников данных;
систематизация, доступность и целостность исторических данных в коллекциях.

Модуль поисковой системы:

формирование релевантной поисковой выдачи для пользовательских запросов;
анализ близости документов;
обеспечение работы специализированных режимов поиска: расширенный поиск, поиск с учетом тезаурусов.

Модуль поискового портала:

рабочее место пользователей для работы с коллекцией документов, полученных в результате интеграции данных из внутренних и внешних источников;
интерфейс поиска;
инструменты управления поисковой выдачей (фильтры, расширение запроса семантически близкими понятиями);
механизмы настройки параметров системы (администрирование).

В процессе реализации были выполнены следующие работы:

Создана инфраструктура сервисов, которая включает в себя:

— Основное веб-приложение;

— Сервис для авторизации и управления правами;

— Сервис для доступа к данным из неструктурированного хранилища;

— Сервис полнотекстового поиска;

— Вычислительный кластер.

Разобраны файлы из внутреннего хранилища, извлеченный контент загружен в БД (хранилище неструктурированной информации).
Загружены наборы данных внешних источников:

— Нефть России (7 129 документов);

— AllPetro.ru (12 550 документов);

— NefteGaz.ru (52 259 документов).

Реализовано хранилище данных, обеспечивающее хранение структурированных и неструктурированных данных:
Проведена семантическая обработка загруженных данных:

— документы прошли необходимые этапы обработки: извлечение контента, лемматизация, фильтрация, формирование семантического пространства на базе обучающей выборки;

— рассчитана семантическая близость между документами;

— для каждого документа выделены ключевые слова;

— рассчитаны семантические аналоги слов при помощи применения версии реализации алгоритма word2vec;

— Загруженные в БД данные проиндексированы и доступны для поиска.

Для решения задачи формирования связей между объектами, был опробован подход использования направленного ациклического графа (тезауруса).

Результаты и их ценность для компании:

Информационное пространство и объем файлового хранилища компании (сейчас более 650 ТБ) постоянно увеличивалось, что приводило к увеличению временных затрат на исполнение бизнес-процессов, значительной частью которых является поиск релевантной информации.

Сотрудники Научно-Технического Центра тратили большое количество рабочего времени на поиск нужной информации. Отсутствие инструментов анализа и выявления релевантной информации приводило к росту числа принимаемых решений, основанных на недостоверной информации и в условиях недостаточного информирования сотрудников.

Среди ключевых результатов проекта можно отметить следующее:

Уменьшение затрачиваемого сотрудниками времени на поиск необходимых пользовательских знаний в 2 раза за счет внедрения централизованного инструмента поиска по различным источникам;
Расширение доступной базы для поиска за счет осуществления поиска по документам и форматам, ранее недоступным, таким как pdf, djvu и другие форматы, где требовалось предобработка графической информации в документах;
Сокращение затрат на анализ и проработку тематик и технологий, существующих в международной и российской практике;
Увеличение количества обращений экспертов и сотрудников к лучшим практикам и расширение внутренней кооперации, экспертизы и взаимной вовлеченности сотрудников;
Повышение качества и сокращение сроков принятия решений за счет повышения информированности сотрудников.

Сложности и риски:

Качество входных данных.

Часть материалов, предназначенных для обработки и анализа, была представлена в виде отсканированных документов. Качество сканирования сильно отличалось, многие документы были «зашумлены», что повлекло сложности с распознаванием информации и потребовало дополнительных действий по предобработке документов (дополнительная очистка, удаление нечитаемых фрагментов и нераспознанного текста).

География проекта

Разработка системы велась в офисах компании NAUMEN в Москве и Екатеринбурге. Система внедрена и функционирует в офисе компании Газпромнефть НТЦ в Санкт-Петербурге.

Дополнительные презентации:

Приложение 1. Презентация проекта_Интеллектуальная поисковая система.pdf