Умный портал цифровых нормативно-методических документов
- Заказчик:
- ПАО «Газпром нефть»
- Руководитель проекта со стороны заказчика
- Поставщик
- NAUMEN
- Год завершения проекта
- 2019
- Сроки выполнения проекта
- Декабрь, 2018 - Ноябрь, 2019
- Масштаб проекта
- 2066 человеко-часов
30000 автоматизированных рабочих мест - Цели
Цель проекта – создать информационную систему, которая позволит оптимизировать работу с НМД компании:
- структурировать и поддерживать актуальность базы НМД, а также процессной модели;
- сократить время на поиск необходимой информации;
- упростить работу сотрудников и повысить качество НМД.
Дополнительная цель – создать заделы для применения алгоритмов машинного обучения и технологий искусственного интеллекта в ИТ-продуктах группы компаний «Газпром нефть».
Уникальность проекта
Разработанная интеллектуальная система позволяет поддерживать базу нормативно-методической документации в рабочем состоянии активного использования рядовыми сотрудниками, быстро адаптировать процессы компании под новые требования, а также управлять изменениями и собирать обратную связь по документам.Система интеллектуальной обработки документов относится к классу LegalTech-решений, входящие в ее состав сервисы позволяют структурировать и устанавливать связи между документами, осуществлять интеллектуальный поиск и содержательный анализ документов (например, степень дублирования текста, наличие смысловых пересечений), а также формировать персональные рекомендации для конкретного сотрудника с учетом его пользовательского опыта.
- Использованное ПО
Стек инфраструктуры:
- Apache Kafka
- Docker / Docker swarm / Docker-compose
- MongoDB
- PostgreSQL
- ELK-stack:
- Elasticsearch
- Kibana
- Logstash
- Filebeat
- Auditbea
- Nginx
- GitLab
- Nexus
- Сlair
- Linux Ubuntu Server.
Технологии:
-
Предобработка текста (spaCy, Stanford NLP)
-
Векторное представление текстов (нейросети CNN/Transformer, FastText, SIF)
-
Тематическое моделирование (pLSA, LDA, ARTM)
-
Классификация (lightGBM, Transformer, BERT)
-
Кластерный анализ (HDB Scan, UMAP).
Инструменты и программные библиотеки:
- FastText
- PyTorch
- BigARTM
- LightGBM
Средства разработки программного интерфейса:
- Play Framework
- Angular 7
- Apollo Angular
- Bootstrap 3
- Библиотеки JS (Chart.js, Cytoscape.js, Pdf.js)
- NGRX.
- Сложность реализации
Управленческие:
- Большое количество бизнес-заказчиков из различных функций (Процессный офис, Юридическая функция, Производственная безопасность и другие) потребовало значительных усилий на удержание функциональности системы в границах проекта.
- Высокие требования к контуру безопасности – внедрение новых технологий, не используемых ранее в контуре заказчика, проходит через процедуры апробации.
Особенности хранения информации в текущих базах данных:- Отсутствие части полей, противоречия, устаревшие данные.
- Хранение больших документов (до 200 Мб).
- Сложность интеграции в закрытом контуре: все интеграции с существующими системами осуществлялись в условиях ограниченного доступа.
Высокие требования к производительности:
- Ограниченность ресурсов тонких клиентов для обработки графики при построении сложных визуализаций.
- Необходимость поддержки определенных браузеров накладывала существенные ограничения на создание функциональных пользовательских интерфейсов.
Сложная организация инфраструктуры разработки:
- Трудности доступа к стендам и передачи файлов на стенды.
- 1 точка доступа через Proxy, ограниченный список URL.
- Сборка конечных Docker-образов с ограниченным интернетом.
- Трудность работы через Hypervisor без возможности копирования текста и создания множественных сессий.
- Отсутствие доступа к некоторым серверам стендов, часть работы проводились удаленно посредством связи с помощью специалистов заказчика.
- Описание проекта
Ситуация на старте:
В рамках стандартизации бизнес-процессов ПАО «Газпром нефть» разрабатывает и актуализирует значительное количество нормативных документов. Хранение и обработка документов осуществлялась в слабоструктурированном файловом хранилище, что приводило к существенным ограничениям в работе с информационным пространством. В связи с увеличением объема поступающих документов и ростом нагрузки на сотрудников – снижалось качество проработки документов.
Предпосылки создания системы:
- Отсутствие качественного поиска данных – сложно искать документы в существовавшей системе
- Документы слабо структурированы, например, на старте проекта:
- Отсутствует возможность персонализированной доставки контента;
- Отсутствует возможность организации децентрализованной обратной связи по документам от большого количества сотрудников
- Ссылки на документы проставляются вручную, нет возможности быстро выявить и бесшовно перейти в связанные документы;
- Термины в документах зачастую противоречат корпоративному глоссарию;
- Отсутствуют инструменты для автоматического выявления неактуальных, дублирующих и устаревших документов в масштабе всей базы НМД Компании;
- Отсутствуют инструменты для автоматического отслеживания изменений в документах и множественного сравнения версий в масштабах всей базы НМД Компании.Исходные данные:
- Необходимо поддерживать работу более 30 тысяч пользователей: авторов / согласующих / читателей нормативно-методических документов, а также методологов;
- Несколько десятков тысяч НМД в Группе компаний;
- Несколько десятков тысяч версий документов;
- Более 100 дочерних обществ в Группе компаний
Эффекты от внедрения системы:
- Повышение достоверности информации в базе нормативно-методических документов, повышение доверия в нормативной документации;
- Снижение регуляторных рисков, связанных с наличием задублированных или противоречащих друг другу норм;
- Структурирование внутренних баз данных и сокращение времени на поиск необходимой информации;
- Снижение затрат методологов и разработчиков документов на анализ и проверку НМД;
- Улучшение качества документов и сокращение сроков разработки;
- Автоматизация информирования сотрудников;
- Повышение эффективности контроля и мониторинга работы с документами
Важно, что система не создает новые бизнес-процессы и не усложняет работу сотрудников, а предоставляет инструменты для поддержания базы НМД в актуальном состоянии.
- География проекта
Поддерживаемый язык системы – русский.
Пользователями системы являются сотрудники ПАО «Газпром нефть» и ее дочерних обществ.В развитие системы заложено внедрение кросс-языкового поиска данных и адаптация системы под различные иностранные языки.
- Дополнительные презентации:
- Умный портал цифровых НМД.pdf