Когда в СЭД/ЕСМ только реквизиты

18 сентября 2017
4

Трендом последних лет стало наведение порядка, но, следуя тенденциям, уже не в бумажных, а в электронных документах и данных. Причем причины подобных запросов различаются.

Кейс 1. СЭД была внедрена под задачи автоматизации канцелярии в рамках доступного на тот момент бюджета. Все доработки были записаны в планы развития и отложены до появления нужного финансирования. В итоге документы в течение нескольких лет регистрировались в системе только по стандартным реквизитам – номеру, дате, отправителю.

Результат: канцелярия автоматизирована, задачи бизнес-подразделений не выполнены. Любая попытка анализа/составления подборок документов среди накопленных 2,7 млн. страниц Jpeg и PDF упирается в ограничения поиска. Искать документы и составлять подборки можно только по реквизитам. 

Кейс 2. Другая группа задач возникает, когда появляются кросс-процессы, требующие подбора документов по субъекту или объекту из разных корпоративных систем. 

Например, в системе управления имуществом земельный участок учтен по кадастровому номеру, а в CRM в переписке с контрагентом фигурирует исключительно адрес, причем часто по-разному написанный. Для быстрого и качественного поиска необходимо научить системы связывать документы между собой по вторичным реквизитам и признакам.  

Как быть?

Можно пойти по пути развития полнотекстового, контекстного поиска. Но, учтите, что хороший поисковый «движок» и адаптация алгоритмов к вашим и отраслевым особенностям потребуют немалых вложений, а поиск все равно будет релевантным.

Вместо полного комплекта актуальных документов сотрудник будет получать списки результатов, как в Google или Яндекс. Если, скажем, наименование контрагента в Дополнительном соглашении написано с ошибкой, неверно распознано или отличается от принятого написания, то документ не попадет в поисковую выдачу или будет ближе к ее концу, и может быть банально пропущен. 

Проще и дешевле, оказывается, подготовить сами документы – дополнить их расширенными реквизитами, необходимыми для поиска и взаимосвязи между собой. Это, к тому же, не требует большой доработки информационных систем, нужно будет лишь добавить поля для недостающих данных. 

Чтобы уйти от дорогостоящих методов извлечения данных  – шаблонов OCR-программ с их ограничениями и ручным перепечатываем букв силами взвода операторов, – в ЭЛАР разработана и уже более семи лет применяется особая технология оцифровки. 

Технология универсальна, то есть подходит для обработки всех документов. Ее функцию даже можно даже назвать «топорной» – находить в тексте все смысловые сущности, которые определит пользователь: ФИО, наименования, адреса, суммы и т.д. Но за этой «топорностью» стоят очень серьезные интеллектуальные алгоритмы.

В результате мы смогли заменить многомесячный ручной труд операторов  несколькими часами работы программы. И, кстати, в отличие от оператора, программа не пропускает нужной информации в тексте. 

Не все так просто

Программа извлекает сведения именно такими, какими они написаны в документе. А для качественного поиска и установления взаимосвязи между документами данные должны быть приведены к единообразию написания. Именно по этой причине работа программных алгоритмов всегда сопровождается услугами проверки и нормирования извлеченных данных. 

В большинстве случаев вместе с нормированными данными сохраняются и изначально извлеченные, так как многие задачи (например, юридические вопросы) требуют работы именно с такими, аутентичными сведениями.

Здесь важную роль играют три обстоятельства:

1. Огромным подспорьем становятся имеющиеся в компании базы данных (тот же список контрагентов или физических лиц в ERP или CRM). Эти списки берутся за основу, и в 97% случаев программа самостоятельно устанавливает соответствие и приводит извлеченные данные к принятому в компании стандарту. Причем для гарантии качества, если позволяет политика безопасности, всегда сверяются 1-3 дополнительных реквизита – к примеру, ИНН и номер счета.

2. Отдельная группа задач – адресные данные. В документах, касающихся имущественных отношений, адрес вообще является главным реквизитом, связывающим в комплект документацию по объекту, в том числе в интерфейсе геоинформационных систем. 

Один и тот же адрес может быть записан более чем 20-ю разными способами. Поэтому приведение его к формату Федеральной адресной информационной системы (ФИАС), КЛАДР или корпоративному стандарту оказывается нетривиальной задачей. И снова мы решаем эту проблему с помощью программных алгоритмов, «раскладывающих  по полочкам» на основе морфологии и семантики группу сокращений и символов, с помощью которых адрес был записан. 

3. Но все же часть данных требует ручного ввода, нормирования и проверки. C`est la vie (с франц. - «такова жизнь»). Поэтому форматом услуг ЭЛАР всегда предусмотрена работа небольшой группы профессиональных операторов.

В итоге

  • Вы повышаете эффективность многих подразделений и процессов, просто доведя «до ума» уже имеющийся ресурс электронных документов. Никакого длительного сканирования, доработок систем и прочих ресурсоемких операций.
  • Вы делаете это с минимальными затратами и быстро, независимо от объема. Никакой дорогостоящей разработки шаблонов OCR-программ, которые к тому же не применимы для неструктурированных документов. Минимум ручного труда. 
  • Ну и еще один плюс – это возможность отдать на аутсорсинг обработку секретных документов или относящихся к коммерческой тайне. Наши операторы будут видеть только минимальные, не связанные между собой фрагменты информации.

Кейс 3. Технология может сопровождаться взаимосвязью документов посредством гиперссылок, в частности, в информационно-правовых системах.

Например, выходит новый Приказ, корректирующий 19 ранее подписанных актов. Программные алгоритмы анализируют текст документа и посредством гиперссылок связывают со всеми другими, которые в нем упомянуты. Гиперссылки проставляются на конкретные абзацы и места в текстах. 

Значительно упрощается работа по внесению и учету изменений, упрощается навигация. 

P.S. Вот так, коллеги, интеллектуальные технологии уже стали бытовыми. Прошу за дополнительной информацией заходить на сайт www.wescan.ru 
 

6613
Поделиться
Коментарии: 4

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Александр Фаризанов
    Рейтинг: 10
    Bonduelle
    Руководитель ИТ отдела
    19.09.2017 18:30

    Поправьте ссылку внизу статьи. А В целом тема интересная.

  • 20.09.2017 10:27

    Александр, спасибо за замечание. Ссылку поправили!

  • 20.09.2017 12:14

    Не помешало бы добавить немного сравнительного анализа работы данного алгоритма с другими алгоритмами поиска.
    Кроме прочего, как будут анализироваться графические данные (jpg, png....), защищенные pdf-файлы или защищенные архивы, да те же защищенные doc/docx-файлы?

    • Илья Веригин
      Рейтинг: 10
      Корпорация ЭЛАР
      Руководитель направления аналитики и услуг
      22.09.2017 16:57

      Кирилл, извиняюсь за задержку с ответом.
      Сравнение с поисковыми системами (которыми мы, к слову, тоже занимаемся) провести сложно - все зависит от конкретной инсталляции и предметной области данных. Если вам нужен гибкий поиск или поиск по десяткам ресурсов сразу с семантикой, внедряйте поисковик топ-уровня, например, Exalead или Perceptive search.
      Если присутствует элемент формализации (строгий набор данных, подборка четкого комплекта документов и пр.), результат можно получить только извлекая и проверяя данные. Интеллектуальные алгоритмы упрощают этот процесс.

      Эти алгоритмы мы используем на своем производстве - они обрабатывают по несколько миллионов документов в месяц.

      Но можно встраивать их в системы. Например, из свежих проектов: автоматизировали обработку заявок из POS-точек в одном из известных банков. 7 заявок в секунду без метода шаблонов и при ужасном качестве скан-копий.
      Или вот: построили внутренний "Консультант" в Минобороны. Новые Приказы анализируются на лету, изменения в предыдущие документы вносятся автоматически.

      Естественно, в случае графических файлов производится распознавание. Для русского языка качество дают 5 OCR-движков.
      Если файл защищен паролем, то, простите, мы его не откроем, да и не будем ввиду соглашения конфиденциальности )))

Предметная область
Отрасль
Управление