Интеллектуальная поисковая система, основанная на когнитивном анализе данных
- Заказчик:
- Научно-Технический Центр «Газпром нефти» («Газпромнефть НТЦ»)
- Руководитель проекта со стороны заказчика
- Поставщик
- NAUMEN
- Год завершения проекта
- 2018
- Сроки выполнения проекта
- Февраль, 2018 — Ноябрь, 2018
- Масштаб проекта
- 12672 человеко-часов100 автоматизированных рабочих мест
- Цели
Разработка и внедрение универсальной поисковой системы, основанной на когнитивном анализе данных, для осуществления эффективного анализа и релевантной выдачи информации, существенного сокращения объемов информации, необходимой для изучения сотрудником, и времени на поиск данной информации.
Цели:
- Предоставление «единого окна» для быстрого и точного поиска информации, хранящейся в различных форматах и на различных ресурсах компании;
- Внедрение поискового механизма, позволяющего вести научную и аналитическую работу с результатами поисковой выдачи по различным источникам данных;
- Расширение возможностей трансфера и управления знаниями между подразделениями и функциями «Газпромнефть НТЦ».
Уникальность проекта
Для более целевого и быстрого поиска необходимой информации были внедрены различные инструменты семантического и интеллектуального анализа данных:
- Интеллектуальный поиск
- Фильтрация поисковой выдачи по набору параметров
- Расширение области поиска за счет расширения контекста запроса
- Использование тезаурусов в поиске
Полнотекстовый семантический поиск (ведётся по всему содержимому документов) по запросам на естественном языке по контенту базы знаний организации. Запросы к поисковому сервису учитывают морфологию слов в запросе, понимают ряд сокращений и специализированных терминов. Выдача формируется на основании не только вхождения поискового запроса, но также и на основании семантического анализа контекста запроса и содержания документов.
Позволяет оставить в поисковой выдаче документы, удовлетворяющие нужным пользователю параметрам. Например, можно выбрать несколько конкретных источников данных или оставить в выдаче только документы с заданным типом (книги, НМД и т.д.).
Расширение запроса — режим, который можно включить или отключить, нажав на кнопку в поисковой строке. Позволяет расширить контекст запроса, добавив в выдачу дополнительные документы с учетом автоматически формируемого к запросу списка семантических аналогов.
Позволяет найти неявные результаты за счет алгоритмов учета заложенных в тезаурусе связей. Например, при поиске «месторождения ХМАО» при включенном режиме в выдачу попадут не только документы, касающиеся месторождений ХМАО, но и конкретных случаев (Приразломное месторождение, Восточно-Ингинское и т.д.).
- Использованное ПО
Программное обеспечение
- Серверная ОС: CentOS7/Debian9 либо любой другой современный
64-разрядный Linux, Microsoft Windows (x64); - СУБД: PostgreSQL/PostgresPro версия 10 и MongoDB;
- Рекомендованные браузеры (для работы пользователе с ПК): Internet Explorer версии 11.0 и выше, Google Chrome версии 65.0 и выше, Mozilla FireFox версии 60.0 и выше.
- Серверная ОС: CentOS7/Debian9 либо любой другой современный
- Описание проекта
Работы, выполненные в процессе реализации:
Разработанная система за счет внедрения когнитивного анализа данных, индекса максимального количества хранимой информации, введения функциональных онтологий осуществляет эффективный анализ и релевантную выдачу информации.
Инструменты, основанные на методах машинного обучения, позволяют повысить автоматизацию поисковых и аналитических задач сотрудников ГПН НТЦ, обеспечивают уровень информированности и позволяют более эффективно работать с большими объёмами информации.
В процессе реализации были разработаны следующие функциональные модули системы:
Модуль сбора и хранилища данных:
- сбор неструктурированных массивов данных;
- индексация внутренних и внешних источников данных;
- систематизация, доступность и целостность исторических данных в коллекциях.
Модуль поисковой системы:
- формирование релевантной поисковой выдачи для пользовательских запросов;
- анализ близости документов;
- обеспечение работы специализированных режимов поиска: расширенный поиск, поиск с учетом тезаурусов.
Модуль поискового портала:
- рабочее место пользователей для работы с коллекцией документов, полученных в результате интеграции данных из внутренних и внешних источников;
- интерфейс поиска;
- инструменты управления поисковой выдачей (фильтры, расширение запроса семантически близкими понятиями);
- механизмы настройки параметров системы (администрирование).
В процессе реализации были выполнены следующие работы:
- Создана инфраструктура сервисов, которая включает в себя:
— Основное веб-приложение;
— Сервис для авторизации и управления правами;
— Сервис для доступа к данным из неструктурированного хранилища;
— Сервис полнотекстового поиска;
— Вычислительный кластер.
- Разобраны файлы из внутреннего хранилища, извлеченный контент загружен в БД (хранилище неструктурированной информации).
- Загружены наборы данных внешних источников:
— Нефть России (7 129 документов);
— AllPetro.ru (12 550 документов);
— NefteGaz.ru (52 259 документов).
- Реализовано хранилище данных, обеспечивающее хранение структурированных и неструктурированных данных:
- Проведена семантическая обработка загруженных данных:
— документы прошли необходимые этапы обработки: извлечение контента, лемматизация, фильтрация, формирование семантического пространства на базе обучающей выборки;
— рассчитана семантическая близость между документами;
— для каждого документа выделены ключевые слова;
— рассчитаны семантические аналоги слов при помощи применения версии реализации алгоритма word2vec;
— Загруженные в БД данные проиндексированы и доступны для поиска.
- Для решения задачи формирования связей между объектами, был опробован подход использования направленного ациклического графа (тезауруса).
Результаты и их ценность для компании:
Информационное пространство и объем файлового хранилища компании (сейчас более 650 ТБ) постоянно увеличивалось, что приводило к увеличению временных затрат на исполнение бизнес-процессов, значительной частью которых является поиск релевантной информации.
Сотрудники Научно-Технического Центра тратили большое количество рабочего времени на поиск нужной информации. Отсутствие инструментов анализа и выявления релевантной информации приводило к росту числа принимаемых решений, основанных на недостоверной информации и в условиях недостаточного информирования сотрудников.
Среди ключевых результатов проекта можно отметить следующее:
- Уменьшение затрачиваемого сотрудниками времени на поиск необходимых пользовательских знаний в 2 раза за счет внедрения централизованного инструмента поиска по различным источникам;
- Расширение доступной базы для поиска за счет осуществления поиска по документам и форматам, ранее недоступным, таким как pdf, djvu и другие форматы, где требовалось предобработка графической информации в документах;
- Сокращение затрат на анализ и проработку тематик и технологий, существующих в международной и российской практике;
- Увеличение количества обращений экспертов и сотрудников к лучшим практикам и расширение внутренней кооперации, экспертизы и взаимной вовлеченности сотрудников;
- Повышение качества и сокращение сроков принятия решений за счет повышения информированности сотрудников.
Сложности и риски:
Качество входных данных.
Часть материалов, предназначенных для обработки и анализа, была представлена в виде отсканированных документов. Качество сканирования сильно отличалось, многие документы были «зашумлены», что повлекло сложности с распознаванием информации и потребовало дополнительных действий по предобработке документов (дополнительная очистка, удаление нечитаемых фрагментов и нераспознанного текста).
- География проекта
- Разработка системы велась в офисах компании NAUMEN в Москве и Екатеринбурге. Система внедрена и функционирует в офисе компании Газпромнефть НТЦ в Санкт-Петербурге.
- Дополнительные презентации:
- Приложение 1. Презентация проекта_Интеллектуальная поисковая система.pdf