Корпоративный поиск – единая точка доступа к знаниям компании

Заказчик
ПАО "Газпром нефть"
ИТ-поставщик
ООО "Газпромнефть - Цифровые решения"
Год завершения проекта
2020
Сроки выполнения проекта
Октябрь, 2018 - Декабрь, 2020
Масштаб проекта
60000 человеко-часов
Цели

Цель проекта – повысить эффективность управления знаниями, накопить и развить экспертный потенциал компании путем предоставления единого окна доступа к данным и создания новых сценариев работы с контентом.

Задачи:

  • Упрощение процессов поиска информации и ускорение доступа к данным, контенту и внутренним сервисам;

  • Сохранение и обмен накопленными знаниями в компании, агрегация лучших практик и экспертизы для повышения операционной эффективности.

  • Сокращение затрат на разработку локальных семантических и поисковых систем за счет создания централизованной платформы.

Уникальность проекта

Корпоративный поиск – уникальная точка доступа к накопленным внутренним знаниям и экспертизе, формирующая в компании новый сценарий работы с информацией и данными.

Внедрение технологии семантической обработки и кластеризации данных позволяет реализовать вычислительное смысловое индексирование текстов на естественном языке. В результате автоматически формируется модель семантики отдельных документов, достоверно характеризующая тематику и содержание проанализированных информационных ресурсов.

Для обучения системы особенностям корпоративного языка и терминологии нефтегазовой отрасли командой проекта сформирован уникальный тезаурус, содержащий более тысячи различных терминов, определений и аббревиатур.

Обеспечен поиск по различным по структуре и контенту данным: структурированные и неструктурированные; разные типы объектов: документы, сотрудники, аналитические приложения (BI) и т.д.
Использованное ПО

Разработка:

бэкенд: Scala, Java, Python

фронтенд: ReactJS,

БД: PostgreSQL, MongoDB

Поиск: ElasticSearch

Анализ данных и языка: Apache Spark, Tika, Tesseract OCR, CRF, rule-based over LSA

Семантическая обработка: LSH, LSA, Word2vec, doc2vec/paragraph2vec

Инфраструктура: 4 сервера приложение и БД; 3 сервера обсчет данных, вычислительный кластер. Мощность каждого сервера: 16 ядер, 32ГБ оперативной памяти, 1ТБ HDD.

Сложность реализации
Необходимость предобработки, унификации и систематизации большого объема разноструктурированных данных; Поддержка универсального интерфейса взаимодействия для быстрого подключения новых систем. Большой организационный объем по выстраиванию коммуникаций и синхронизации разработки с командами систем-источников. Комплексная ролевая модель доступа к данным с наследованием от систем-источников. Необходимость постоянной актуализации стека, в связи с развитием технологий обработки текстов, оптимизация серверных мощностей и архитектуры решения.
Описание проекта

Проект направлен на создание общекорпоративной поисковой платформы, выступающей единой точкой доступа к структурированным и неструктурированным данным, знаниям и экспертизе компании. Для пользователей это новый сценарий взаимодействия с данными и новые возможности работы с контентом для повышения эффективности рабочих процессов.

Ключевой KPI проекта – сокращение времени на поиск информации во внутренних и специализированным внешних источниках компании. Подтвержденный эффект – сокращение времени на поиск информации на 35%.

Потенциальный охват аудитории – более 70 тысяч сотрудников ГК «Газпром нефть».

Ключевые инструменты и возможности системы:

1. Сбор данных и минимизация ресурсов на подключение источников:

- enterprise коннекторы к основным типам систем, внедренным в компании;

- краулер для обхода сайтов;

- унифицированное API для снижения времени на интеграции с системами-источниками;

- механизмы комплексной ролевой модели доступа к документам в поиске на основании правил доступа систем-источников;

- возможность поиска по разным типами бизнес-объектов (документы, люди, отчеты, бизнес-глоссарий, корпоративные сервисы и т.д.)

2. Поиск и анализ контента:

- сегментация пользовательского запроса: выделение терминов, аббревиатур, понятий и сущностей для учета контекста задаваемого вопроса;

- автоподсказки при вводе запроса для формирования автодополнений, исправления опечаток и раскладки, рекомендаций на основе контекста вопроса;

- формирование поисковой выдачи с учетом контекста пользовательского запроса и онтологической модели корпоративного языка;

- тематические подборки документов на основе семантического анализа и поиска смысловых пересечений документов;

3. Платформа поиска обеспечивает:

- накопление данных и экспертизы для анализа и выявления новых знаний;

- использование реализованных инструментов для быстрого старта новых проектов по поиску и анализу данных;

- API для встраивания функционала поиска и анализа контента платформы в другие информационные системы.

Платформа поиска является внутренней разработкой. В процессе развития функции управления данными Натальей Третьяковой, лидером функции, был сформирован центр компетенций для внутреннего развития и внедрения продуктов. В задачи команды входит развитие платформы поиска и инструментов семантического анализа, создание специализированных поисковых, аналитических и экспертных систем-сателлитов. В свою очередь, это является основой для структурирования и организации информации, доступности и качества данных для поддержания развития процессов управления данными в компании.

Видео: https://yadi.sk/i/yjq6vL2ejZCHlA

География проекта
Все регионы присутствия "Газпром нефти".
Дополнительные презентации:
Корпоративный поиск_CIO.pdf
Коментарии: 15
  • Евгений Вязилов
    Рейтинг: 20
    ФГБУ "ВНИИГМИ-МЦД"
    зав.лаб.
    25.11.2020 17:40

    Вообще-то под единой точкой доступа понимается веб-портал. И при чем здесь знания? В компьютерном мире под знаниями понимается не информация, а правила, семантические сети, др.

    • Наталья Третьякова Евгений
      Рейтинг: 595
      ПАО «Газпром нефть»
      Начальник управления организации работы с данными
      01.12.2020 11:49

      Евгений, добрый день!
      Система Корпоративного поиска является единой точкой доступа, поскольку объединяет в себе информацию из множества источников – в том числе, веб-порталов, баз данных и специализированных систем.
      Такой подход позволяет объединить всю информацию, создаваемую в группе компаний, развивая внутренние каналы связи и предоставляя доступ к накопленным знаниями.
      Система оперирует не только контентом из источников, обеспечивая поиск. Все данные, которые попадают в систему, проходят семантическую обработку и анализ, между документами формируются семантические связи, при помощи которых мы кластеризуем информацию и предоставляем пользователю возможность работать не только с информацией, но и извлеченными из нее знаниями.
      Для повышения качества извлекаемых из документов знаний мы внедряем корпоративную онтологию, которая позволяет на более глубоком уровне оперировать терминами, определениями и связями между ними, помогает находить скрытые и неявные связи между документами и точнее выделять предметную область пользовательского запроса.
      Все это дополняется рекомендательной системой, которая ориентируется на профиль деятельности пользователя, его историю запросов, организационную структуру и другие параметры.
      Наш проект стоит рассматривать не только как часть компьютерного мира, но и как часть жизни сотрудников «Газпром нефти». Таким образом, при помощи нашей системы каждый сотрудник может найти ответы на вопросы из совершенно разных сфер: новости и проекты компании, отраслевые новинки и технологии, правила оформления командировок или подачи информации о рождении ребенка.

  • Андрей Лабутин
    Рейтинг: 79
    ЗиД, ОАО
    Начальник отдела ИТ
    26.11.2020 12:01

    Хороший проект. Заявлен здесь же схожий проект от Федерального агентства по делам национальностей - в конкурентах к Вам.

    Немного удивлен, что при таком объеме материалов, который указан в презентации, Вам хватает тех мощностей, что здесь указаны в описании проекта.

    В первую очередь вопрос к ресурсам конечно в сторону потребностей для LSH, LSA, Word2vec по всему объему документов?

    Из Вашей презентации не увидел перемоделирования (дообучения) по всему объему при появлении новых документов, а только векторизацию самого документа, но догадываюсь, что она обязана проводиться. Видимо с какой-то периодичностью. И вот насколько при полном переобучении у Вас хватает заявленный ресурсов?

    • Алексей Поперлюков Андрей
      Рейтинг: 206
      Газпромнефть – Цифровые решения, ООО
      Генеральный директор
      30.11.2020 15:53

      Андрей, здравствуйте!
      Одна из основных ценностей нашей компании – эффективность, то есть получение большего результата при меньших затратах и бережное отношение к ресурсам. Поэтому в своей работе мы изучаем и применяем лучшие практики, которые позволяют повышать эффективность процесса.
      У нас нет цели внедрять технологии ради их новизны или популярности, поэтому при разработке мы соблюдаем баланс между полезностью технологии для проекта и объемом ресурсов для ее встраивания и применения. Наш фокус на том, чтобы повышать производительность системы не только за счет наращивания вычислительных мощностей, но и за счет соответствующих подходов при проектировании и разработке.
      Вот несколько примеров реализации подобного подхода.
      Для большей эффективности выделенные ресурсы объединяются в вычислительные кластеры. Это позволяет использовать их комплексно, гибко управляя нагрузкой и потоками обработки данных.
      Другой пример – работа с векторами. Квантование позволяет значительно уменьшить использование оперативной памяти и загружать вектора большими пачками в память. Для того, чтобы избавиться от квадратичной сложности при попарном сравнении векторов, используется LSH, что позволяет эффективно работать даже с миллионами документов.
      И последний пример уже из процесса построения релевантной выдачи по запросу пользователя. В системе реализовано несколько ступеней ранжирования: для массовых задач используются грубый алгоритм, который позволяет быстро и дешево (с вычислительной точки зрения) отобрать TOP-N документов, для которых уже будет запущен более вычислительно дорогой алгоритм, но со значительно более качественным результатом.
      Такой подход позволяет нам оставаться в рамках текущих мощностей для обработки данных, проводя масштабирование только при необходимости.
      Что касается второго вопроса: дообучение системы действительно является необходимым и регулярным процессом. Модели семантики со временем деградируют и требуют переобучения, и главное условие необходимости этого – качественное тематическое изменение корпуса документов.
      В нашей системе новые документы появляются ежедневно, а из некоторых источников обновление происходит раз в 15 минут. Все новые входящие документы проецируются на предрасчитанную модель.
      Полное переобучение происходит по необходимости, например, при подключении нового большого источника, который содержит десятки тысяч документов. Однако, в этом случае, мы можем запускать процесс переобучения «в фоновом режиме», растягивая его по времени, что также позволяет оптимизировать использование вычислительных мощностей.
      Таким образом, комбинируя лучшие практики и оптимизируя план запуска расчетов, нам удается эффективно работать и развивать систему, не прибегая к дополнительным серверным мощностям.

  • Константин Карнаухов
    Рейтинг: 52
    ПАО Магнит
    Руководитель управления аналитической отчетности
    21.12.2020 10:39

    Добрый день. Подскажите по каким аналитическим приложениям осуществляется поиск. Есть ли возможность поиска по контексту BI-приложения (название показателей, разрезов, описание отчета) ? Есть ли возможность поиска по синонимам или сокращениям показателей? Например: FCF = свободный денежный поток ~ денежный поток

    • Наталья Третьякова Константин
      Рейтинг: 595
      ПАО «Газпром нефть»
      Начальник управления организации работы с данными
      22.12.2020 17:56

      Константин, добрый день.

      На текущий момент поиск осуществляется по аналитическим приложениям Qlik View, для этого был разработан специализированный скрипт, который формирует по каждому аналитическому приложению json со всеми необходимыми для поиска данными: название отчета, ФИО владельца отчета, дата актуализации данных, описание и перечень показателей.
      При загрузке в Корпоративный поиск, параметры по каждому отчету меппятся в соответствующие атрибуты, индексируются и становятся доступны в поиске. Таким образом, пользователи могут искать как по описанию отчета, так и по конкретному показателю, получая на выходе перечень аналитических отчетов, в которых этот показатель встречается.

      Для повышения удобства пользователей по поиску аналитических приложений мы дополнительно проводим тегирование этих отчетов по их принадлежности к конкретному подразделению, или блоку организации. Конечно же, для повышения качества поиска по аналитическим приложениям, при запросе пользователя учитываются синонимы и сокращения, они автоматически подтягиваются из специализированного словаря (тезауруса), который регулярно пополняется данными при загрузке новых типов данных.

      • Константин Карнаухов Наталья
        Рейтинг: 52
        ПАО Магнит
        Руководитель управления аналитической отчетности
        23.12.2020 11:26

        Спасибо за ответ. А как у вас в системе решается вопрос доступа к самим данным в аналитических приложениях? Если данные в аналитическом приложении недоступны пользователю, может ли пользователь найти аналитическое приложение в поиске, и если да, то как на это смотрят владельцы данных?

        • Наталья Третьякова Константин
          Рейтинг: 595
          ПАО «Газпром нефть»
          Начальник управления организации работы с данными
          23.12.2020 12:50

          Вы правы, вопрос безопасности данных является очень важным при работе с аналитическими данными. Для того, чтобы устранить риски отображения закрытых данных, при передаче и индексации обрабатывается только описательная часть отчета, метаданные - названия показателей, названия дашбордов, описание, владелец, все эти метаданные являются общедоступными, а непосредственно расчетные значения показателей доступны только в самом приложении, доступ к которому определяется непосредственно ролевой моделью Qlik.

  • Алексей Ильин
    Рейтинг: 25
    Adastra
    Генеральный директор
    23.12.2020 18:13

    Вы работаете с разными типами данных из разных источников, как вы формируете выдачу, чтобы с ней было удобно работать пользователю?

  • Наталья Третьякова
    Рейтинг: 595
    ПАО «Газпром нефть»
    Начальник управления организации работы с данными
    24.12.2020 10:17

    Добрый день, Алексей!
    Вопрос унификации выдачи мы решаем на стадии интеграции с источниками данных, выделяя в системе типы объектов и формируя для них унифицированный подход по описанию мета-модели. Например, сейчас можно выделить несколько ключевых объектов системы: документ, сотрудник(персона), сервис. В рамках этих типов, мы делаем меппинг схемы данных входящих объектов на унифицированную внутри нашей системы схему объектов. В итоге, мы получаем, что все входящие документы, текстовые объекты, файлы в выдаче представлены в едином формате, что значительно упрощает работу пользователя с этими документами.

  • Андрей Бабуров
    Рейтинг: 10
    ООО Адастра
    Ведущий консультант
    24.12.2020 11:48

    Здравствуйте! Как устроена ролевая модель доступа к документам?

  • Наталья Третьякова
    Рейтинг: 595
    ПАО «Газпром нефть»
    Начальник управления организации работы с данными
    24.12.2020 16:11

    Добрый день, Андрей!

    Данные делятся на три типа по вариантам разграничения прав доступа к ним: общедоступные, частично-доступные и закрытые ролевой моделью.

    Общедоступные данные - из открытых источников, доступны всем сотрудникам.

    Частично-доступные - под ними понимаются объекты, мета которых является общедоступной, а доступ непосредственно к вложениям (файлам) и значениям данных - открывается в соответствии с ролевой моделью. В этом случае, сотрудник видит документ в выдаче, может ознакомиться с открытой информацией по объекту, а доступ к вложениям уже определяется уровнем его доступа в системе-источнике.

    И третий тип - закрытые ролевой моделью. В этом случае, пользователь увидит эти документы в выдаче только в том случае, если у него есть права полного просмотра этих объектов и вложений в исходной системе, иначе в выдачу они для него не попадут.

  • Максим Часовиков
    Рейтинг: 1020
    МГУ имени М.В.Ломоносова, Центр цифровой экономики
    Заместитель руководителя службы управления проектами
    06.01.2021 19:02

    Интересный проект, но, если в ИТ системе есть ресурс который самостоятельно тянется ко всем документам, то могут выпросы со стороны информационной безопасности.
    С другой тсороны интересно узнать, поиск может осуществляться и по инженерным данным? например, если в систему попадает сканированный чертеж металлической конструкции, в котором в соотвествии с действующим на тот момент ГОСТом обозначен метиз - болт определенных параметров, то будет ли такой документ проиндексирован, как собедржащий в графическом виде описание этого болта?

  • Антон Денисов
    Рейтинг: 15
    IBS
    Директор по работе с ключевыми заказчиками
    07.01.2021 18:31

    Добрый день.
    Интересный проект, меняющий сценарий работы с информацией в периметре компании. Успехов в его развитии!
    Подскажите, пожалуйста, как решается вопрос контроля актуализации данных в системах-источниках?

Год
Предметная область
Отрасль
Управление