Корпоративный поиск – единая точка доступа к знаниям компании
- Заказчик:
- ПАО "Газпром нефть"
- Поставщик
- ООО "Газпромнефть - Цифровые решения"
- Год завершения проекта
- 2020
- Сроки выполнения проекта
- Октябрь, 2018 - Декабрь, 2020
- Масштаб проекта
- 60000 человеко-часов
- Цели
Цель проекта – повысить эффективность управления знаниями, накопить и развить экспертный потенциал компании путем предоставления единого окна доступа к данным и создания новых сценариев работы с контентом.
Задачи:
-
Упрощение процессов поиска информации и ускорение доступа к данным, контенту и внутренним сервисам;
-
Сохранение и обмен накопленными знаниями в компании, агрегация лучших практик и экспертизы для повышения операционной эффективности.
-
Сокращение затрат на разработку локальных семантических и поисковых систем за счет создания централизованной платформы.
-
Уникальность проекта
Корпоративный поиск – уникальная точка доступа к накопленным внутренним знаниям и экспертизе, формирующая в компании новый сценарий работы с информацией и данными.Внедрение технологии семантической обработки и кластеризации данных позволяет реализовать вычислительное смысловое индексирование текстов на естественном языке. В результате автоматически формируется модель семантики отдельных документов, достоверно характеризующая тематику и содержание проанализированных информационных ресурсов.
Для обучения системы особенностям корпоративного языка и терминологии нефтегазовой отрасли командой проекта сформирован уникальный тезаурус, содержащий более тысячи различных терминов, определений и аббревиатур.
Обеспечен поиск по различным по структуре и контенту данным: структурированные и неструктурированные; разные типы объектов: документы, сотрудники, аналитические приложения (BI) и т.д.
- Использованное ПО
Разработка:
бэкенд: Scala, Java, Python
фронтенд: ReactJS,
БД: PostgreSQL, MongoDB
Поиск: ElasticSearch
Анализ данных и языка: Apache Spark, Tika, Tesseract OCR, CRF, rule-based over LSA
Семантическая обработка: LSH, LSA, Word2vec, doc2vec/paragraph2vec
Инфраструктура: 4 сервера приложение и БД; 3 сервера обсчет данных, вычислительный кластер. Мощность каждого сервера: 16 ядер, 32ГБ оперативной памяти, 1ТБ HDD.
- Сложность реализации
- Необходимость предобработки, унификации и систематизации большого объема разноструктурированных данных; Поддержка универсального интерфейса взаимодействия для быстрого подключения новых систем. Большой организационный объем по выстраиванию коммуникаций и синхронизации разработки с командами систем-источников. Комплексная ролевая модель доступа к данным с наследованием от систем-источников. Необходимость постоянной актуализации стека, в связи с развитием технологий обработки текстов, оптимизация серверных мощностей и архитектуры решения.
- Описание проекта
Проект направлен на создание общекорпоративной поисковой платформы, выступающей единой точкой доступа к структурированным и неструктурированным данным, знаниям и экспертизе компании. Для пользователей это новый сценарий взаимодействия с данными и новые возможности работы с контентом для повышения эффективности рабочих процессов.
Потенциальный охват аудитории – более 70 тысяч сотрудников ГК «Газпром нефть».
Ключевые инструменты и возможности системы:
1. Сбор данных и минимизация ресурсов на подключение источников:
- enterprise коннекторы к основным типам систем, внедренным в компании;
- краулер для обхода сайтов;
- унифицированное API для снижения времени на интеграции с системами-источниками;
- механизмы комплексной ролевой модели доступа к документам в поиске на основании правил доступа систем-источников;
- возможность поиска по разным типами бизнес-объектов (документы, люди, отчеты, бизнес-глоссарий, корпоративные сервисы и т.д.)
2. Поиск и анализ контента:
- сегментация пользовательского запроса: выделение терминов, аббревиатур, понятий и сущностей для учета контекста задаваемого вопроса;
- автоподсказки при вводе запроса для формирования автодополнений, исправления опечаток и раскладки, рекомендаций на основе контекста вопроса;
- формирование поисковой выдачи с учетом контекста пользовательского запроса и онтологической модели корпоративного языка;
- тематические подборки документов на основе семантического анализа и поиска смысловых пересечений документов;
3. Платформа поиска обеспечивает:
- накопление данных и экспертизы для анализа и выявления новых знаний;
- использование реализованных инструментов для быстрого старта новых проектов по поиску и анализу данных;
- API для встраивания функционала поиска и анализа контента платформы в другие информационные системы.
Платформа поиска является внутренней разработкой. В процессе развития функции управления данными Натальей Третьяковой, лидером функции, был сформирован центр компетенций для внутреннего развития и внедрения продуктов. В задачи команды входит развитие платформы поиска и инструментов семантического анализа, создание специализированных поисковых, аналитических и экспертных систем-сателлитов. В свою очередь, это является основой для структурирования и организации информации, доступности и качества данных для поддержания развития процессов управления данными в компании.
Видео: https://yadi.sk/i/yjq6vL2ejZCHlA
- География проекта
- Все регионы присутствия "Газпром нефти".
- Дополнительные презентации:
- Корпоративный поиск_CIO.pdf