Автоматизация распознавания 142 тысяч документов с применением ИИ

Заказчик:

НПФ "Будущее"

Руководитель проекта со стороны заказчика

Виктория Бондарева

Заместитель генерального директора

Поставщик

ITFB Group

Год завершения проекта

2025

Сроки выполнения проекта

ноябрь, 2024 — сентябрь, 2025

Масштаб проекта

11250 человеко-часов

Цели

Цель проекта — обеспечить технологическую консолидацию и автоматизацию процессов регистрации входящих документов в условиях объединения фондов и роста объёмов корреспонденции. Задачей было заменить ручную регистрацию, охватывавшую 42% потока (около 142 тысяч документов в год), на интеллектуальное решение, способное распознавать и классифицировать структурированные и неструктурированные документы, поступающие на бумаге и в электронном виде от физических и юридических лиц. В фокусе стояли сокращение времени обработки входящих документов, минимизация ошибок при регистрации, снижение операционных затрат и создание технологической базы для дальнейшего внедрения сервисов искусственного интеллекта.

Результаты

Внедрение EasyDoc дало НПФ «Будущее» измеримый эффект по ключевым показателям:

62% ручных операций регистрации заменены автоматизированной обработкой;
на 20% сократилось в среднем время регистрации входящей корреспонденции;
на 30% сокращен фонд оплаты труда, задействованный в процессах регистрации;
на 80% снизился уровень ошибок и пропусков при регистрации;
создана архитектура, готовая к масштабированию и интеграции новых ИИ-модулей.

Процесс регистрации стал функционально разделённым и прозрачным, что открыло возможность для аутсорсинга отдельных этапов и масштабирования системы на процесс обработки клиентских заявлений. Система стала фундаментом для дальнейшего развития интеллектуальных сервисов анализа и маршрутизации обращений, обеспечив реальный эффект цифровизации — повышение качества клиентского сервиса и эффективности внутренних процессов.

Уникальность проекта

Проект стал крупнейшим кейсом России по интеллектуальной обработке документов с применением LLM-моделей. Уникальность решения — в сочетании традиционного OCR, rule-based механизмов и языковых моделей нового поколения, что позволило автоматизировать работу с документами любой структуры и качества, включая рукописные тексты и сервисные заявления клиентов. Разработанная архитектура EasyDoc построена по принципу «одного окна» и обеспечивает полный цикл обработки: импорт, предобработка, распознавание, классификация, извлечение данных и экспорт в СЭД. В отличие от типовых решений, система обучается на корпоративных данных без изменения ядра, достигая точности распознавания свыше 90%. Проект создал реальный фундамент для масштабирования и внедрения интеллектуальных сервисов в документооборот.

Использованное ПО

Платформа EasyDoc (разработка ITFB Group), модули OCR/HTR для распознавания печатных и рукописных текстов, компоненты компьютерного зрения для анализа сканов, rule-based подсистема для извлечения атрибутов, LLM-модели для классификации и семантического анализа. Интеграция с корпоративной СЭДчерез API, развёртывание в защищённом контуре с поддержкой импортозамещённого стека, журналирование и контроль качества.

Сложность реализации

Ключевой сложностью проекта стала неоднородность потока входящих документов: даже внутри одного типа формы визуально отличались, что делало невозможным использование стандартных методов распознавания. В потоке присутствовали как структурированные формы, так и неструктурированные документы — обращения клиентов, запросы государственных органов, судебные документы, включая рукописные тексты.

Для достижения требуемого уровня точности потребовалось объединить технологии OCR, rule-based алгоритмы и LLM-модели, способные к дообучению без изменения ядра системы. При этом внедрение проводилось без остановки текущих процессов фонда и с соблюдением всех требований по защите персональных данных. Дополнительную сложность представляло обеспечение масштабируемости решения и интеграции с действующей СЭД без снижения производительности.

Описание проекта

В 2024 году у НПФ «Будущее» появилась потребность в технологической и операционной консолидации документооборота: в условиях объединения нескольких НПФ на базе фонда «Будущее» и большого объема входящей корреспонденции требовалось гарантировать регистрацию и качественную обработку более 330 000 документов в год. При этом около 42% потока регистрировались вручную, что создавало риски ошибок, задержек и дополнительных операционных затрат. Работа осложнялась тем, что документы одного формата требовалось классифицировать по нескольким видам, которые далее нужно было разделить по типам и тематикам.

Проект по внедрению системы EasyDoc был нацелен на быстрое и контролируемое решение этой задачи в рамках автоматизации и оптимизации процессов регистрации документов для повышения уровня сервиса для клиентов. Крупнейший на сегодня в России проект по интеллектуальному распознаванию документов позволил оптимизировать обработку свыше 140 тысяч файлов и классифицировать документы 20 видов по типам и тематикам с применением LLM-моделей.

Перед командой стояла амбициозная задача — спроектировать и внедрить решение, которое обеспечит фонду сквозную автоматизацию работы с входящей корреспонденцией в условиях объединения фондов и больших объемов документооборота. Необходимо было заменить ручную регистрацию, охватывающую 42% потока (около 142 тыс. документов в год), на интеллектуальную систему, способную обрабатывать как структурированные, так и неструктурированные документы от физических и юридических лиц.

Решение было реализовано в течение одиннадцати месяцев. На первом этапе внедрён модуль распознавания и классификации структурированных документов, который обрабатывает как классические текстовые форматы, так и сканированные документы, с интеграцией с системой электронного документооборота фонда. На втором этапе внедрено распознавание неструктурированных документов, включая запросы государственных органов и судебные документы, при этом классификация по типам и тематикам реализована с помощью тонкой донастройки LLM-моделей. На третьем этапе внедрена AI-подсистема для семантического анализа обращений, автоматического выделения сущностей и принятия первичных решений о маршрутизации и приоритизации.

Архитектура EasyDoc построена по принципу «одного окна»: документы проходят через цепочку импорт, предобработка, распознавание (OCR/HTR), классификация (ML, LLM), извлечение атрибутов и экспорт в СЭД по API. Модуль работает с 20 видами документов, 58 типами и 74 тематиками, извлекая до 23 ключевых атрибутов — от почтового идентификатора отправления и СНИЛС клиента до тематики обращения, даты исполнения и субъекта Российской Федерации. Если качество распознавания превышает 90%, документ регистрируется автоматически, при более низком пороге включается ручная верификация атрибутов. Такой гибридный подход позволил сохранить баланс между скоростью и точностью обработки.

География проекта

Проект реализован в центральном офисе НПФ «Будущее» в Москве и дополнительном офисе в Череповце. Архитектура EasyDoc обеспечивает централизованную обработку документов из территориально распределённых подразделений, при этом система развёрнута в защищённом контуре фонда и готова к подключению удалённых офисов и филиалов.