Потоковый ввод: подводные камни подготовки к проекту

10

Часть 1.

Часть 2.

Проекты по созданию систем потокового ввода имеют много общего с другими проектами в области ИТ, но есть у них особенности, которые вызывают специфические ошибки внедрения. Как правило, большая часть ошибок закладывается на ранних этапах проекта, превращая внедрение в головную боль.

Зарождение идеи.

Если вы начали задумываться о системе потокового ввода, значит, есть какая-то неудовлетворенность текущим процессом. Стандартных причин несколько: стоимость, скорость, объем получаемой информации, качество. Для перехода к подготовке проекта нужно оценить текущие затраты и потенциальные выгоды по всем пунктам.

Стоимость – самая популярная причина внедрений. Большинство компаний планирует снизить свои издержки на ввод за счет повышения эффективности труда.

Как считать стоимость текущих процессов ввода понятно, главное рассматривать весь процесс в комплексе. Для того, чтобы ничего не забыть, достаточно хорошо задокументированного процесса ввода, тем более, что он понадобится еще не раз.

Оценивая затраты мы учитываем «стоимость» персонала и факторы, из которых она складывается:

  • Зарплата всех задействованных сотрудников. Часто вводом занимается человек с другими обязанностями, который стоит немало денег, например бухгалтер. Простая реорганизация процесса уже способна дать снижение издержек.
  • Налоги.
  • Аренда помещения + коммуналка, уборка и т.п.
  • Стоимость оборудования.
  • Стоимость лицензий программного обеспечения. Если делать ручной ввод в целевую систему, придется заплатить еще за каждого оператора ввода, а суммы могут быть очень существенные.
  • Затраты на поддержку существующего процесса ввода. Про этот пункт компании забывают регулярно.

Повышение скорости обработки документов – очень интересная задача. Все слышали о том, что распознавание позволяет снизить издержки на персонал. Многие делают из этого вывод, что распознать один документ быстрее, чем перебить данные руками, а это далеко не всегда так! Если комплекс распознавания с 10 пользователями, занимающимися верификацией данных, обрабатывает 600 заданий в час, это означает только то, что тратится 1 минута человеческого времени на задание, а не то, что от сканирования до экспорта проходит одна минута. Почему так происходит?

Распознавание – ресурсоемкий процесс, который занимает на сервере некоторое время. Плюс, делаем поправку на очередь заданий. В итоге, человек может ждать результатов распознавания конкретного задания минут пять и даже больше.

Казалось бы, проблему решит увеличение аппаратных мощностей, но от них скорость распознавания зависит нелинейно.

С количеством необработанных заданий бороться наращиванием количества ядер можно, а вот с скоростью самого распознавания – очень тяжело. Задание распознавания плохо распараллеливается, соответственно, занимает целиком один поток ядра.

Скорость распознавания зависит от:

  • Качества документа.
  • Количества данных.
  • Количества возможных вариантов документов. Если мы точно знаем, что придет паспорт, то распознаем его за 5 секунд, а если есть 20 классов документов, а у каждого еще по три вида, то потребуется полный перебор вариантов и выбор лучшего, что и приводит к долгому ожиданию.

Типичный пример – бюро пропусков. Распознаем только паспорта, специально настраиваем сканер и систему. Эффекты отличные.

Обратный пример – выдача потребительских кредитов. Если снять с продавца задачу ввода данных, то у него появится время на новые продажи, а у клиента останется меньше времени чтобы передумать. Но посмотрим на задачу со стороны системы потокового ввода:

  • Документов разных видов много.
  • Часть из документов рукописные.
  • Данных на них много.
  • Сканировать паспорт лучше на планшетном сканере, остальные документы лучше на поточном.
  • Чтобы бороться с очередями заданий нужны большие аппаратные мощности.
  • Система напрямую влияет на продажи, значит нужен высокий уровень доступности, следовательно кластеризация и прочие меры.
  • Сложная внутренняя оптимизация процесса распознавания тоже стоит денег.

В результате затраты гарантированно большие, а эффект все-равно слабо предсказуем.

Но почему компании внедряют подобные решения? Экономические выгоды достигаются за счет замены человеческого времени машинным и правильным построением процесса обработки: пока сервер распознает одно задание, пользователь работает с другим (пример упрощен для наглядности).

Итоговый вердикт по задаче увеличения скорости ввода:

  • Сканирование дает прирост по скорости обработки документовза счет минимизации временных затрат на транспортировку бумаги.
  • Распознавание, в общем случае, прироста по скорости не дает (не путать с эффективностью!). Каждый случай нужно анализировать отдельно.
  • Система потокового распознавания работает в точности как конвейерная сборка, со всеми ее плюсами и минусами.

Объем получаемой информации оценивать уже сложнее, т.к. здесь требуется проводить внутреннюю аналитику по информационным потокам. Какие могут типичные потребности могут быть выявлены:

  • Наполнение электронного архива скан-образами.
  • Распознавание информации, которая ранее не попадала в информационные системы, а существовала только на бумаге.
  • Автоматическая классификация документов для проверки комплектности и последующего анализа.

Повышение качества данных. Об этом пункте мало кто задумывается, хотя при нормальном построении системы распознавания наблюдается существенное снижение количества ошибок в загружаемых данных. Ошибки во входных данных могут приводить к прямым убыткам, неверной аналитике или замедлению роста продаж.

Как в вашей компании производится подсчет стоимости ошибок во входных данных? Как вы рассчитываете затраты на персонал, ответственный за ввод?

 

4925
Коментарии: 10

Комментировать могут только авторизованные пользователи.
Предлагаем Вам в систему или зарегистрироваться.

  • Виктор Федько
    Рейтинг: 367
    Независимый эксперт
    Эксперт
    02.12.2013 15:43

    Ошибки во входных данных могут приводить к прямым убыткам, неверной аналитике или замедлению роста продаж.

    Да, это несомненно. Но у меня, например, нет уверенности, что кто-то когда-то и где-то такой анализ делал. Было бы интересно познакомится с конкретными примерами.

    Я бы разделил потоковый ввод данных на два вида :
    1. Единовременный ввод больших массивов (ретроспектива, к примеру, создание архивов договоров и т.п.
    2. Регулярный ввод сравнительно небольших объемов информации в готовую, апробированную систему. (бюро пропусков, те же договора по мере поступления , ввод данных на рабочих местах пользователей в ERP и иные системы).

    В первом случае, на мой взгляд, основной критерий - это скорость ввода, точность распознавания, и правильное размещение данных в инфраструктуре.

    Во втором случае скорость не всегда будет критерием решающим. Не во всех случаях. Точность распознавания - да, остается.
    Самой большой и серьезной проблемой остается правильность ввода (исключение ошибок).
    Ошибки могут быть двух видов :
    а). Ошибка при вводе ( если речь идет о ручном вводе больших массивов, то самым действенным способом проверки остается верификация. Количество ошибок при этом сводится к нулю. Лично в этом много лет убеждался)
    б). Ошибка при создании первичного документа, который подлежит вводу. Здесь сложнее. Если вводит человек, создавший документ - то есть варианты проверок. Если другой, оператор - то вероятность "проскакивания" ошибки возрастает.
    По ряду реквизитов ввода возможны автоматизированные проверки корректности с немедленным сигнализированием или с выдачей дефектной ведомости.
    Например : если в графе 1 стоит значение А, то в графе 6 могут быть значения Б, Д, Ф. , то есть значение С не проскочит в графу 5 при контроле. Это контроль по справочникам, массивам и т.п. Не панацея, но работает. Именно этим сейчас продолжаем заниматься - до предела увеличить возможности автоматизированного контроля, исключить человеческий фактор. К 100 % не подойдем никогда, но хотя бы близко.

    • Виктор
      03.12.2013 17:02

      Было бы интересно познакомится с конкретными примерами.
      Полностью согласен, примеров очень мало. Какие примеры встречались мне:
      • Анализ ошибок в клиентской контактной информации. Одна из задач, для которых нужны данные клиента - маркетинговые активности. Их эффект считает большинство компаний. По результатам рассылки на e-mail получаем список несуществующих ящиков (как список недоставленных писем). По этим адресам ищем исходные документы и проверяем источник ошибки (заполнение или ввод). Зная средний эффект от одного письма и количество ошибок ввода, получаем нижнюю границу потерь.
      • Стоимость проверяемых ошибок. Анализировались бухгалтерские документы. Ошибка в стоимости одной из многих позиций приводит к расхождению сумм. Инцидент замечается пользователем, который тратит время на поиск корректной информации и исправление. Это время можно измерить и конвертировать в потери.
      а). Ошибка при вводе ( если речь идет о ручном вводе больших массивов, то самым действенным способом проверки остается верификация. Количество ошибок при этом сводится к нулю. Лично в этом много лет убеждался)
      б). Ошибка при создании первичного документа, который подлежит вводу. Здесь сложнее. Если вводит человек, создавший документ - то есть варианты проверок. Если другой, оператор - то вероятность "проскакивания" ошибки возрастает.
      Во второй части статьи расскажу какой опыт борьбы с ошибками ввода мне встречался. Чуть подробнее расскажу про проверки в документах и про изменение самих документов (если это возможно).

      • Виктор Федько
        Рейтинг: 367
        Независимый эксперт
        Эксперт
        03.12.2013 19:10

        Спасибо.

        По первому примеру. Да, здесь реально посчитать примерный ущерб. Но мы , по моему, говорили, о потоковом вводе больших данных и сразу. Ошибка же в клиентской информации единична (не носит массового характера) и если речь идет о почте,то выявляется мгновенно путем возврата письма от несуществующего ящика. И , соответственно,быстро исправляется.

        По второму примеру Это просто человеческая единичная ошибка, которая действительно выявляется при перепроверке. (Баланс не сошелся - начинаем считать сначала). Но, усомнюсь,что это время можно в потери конвертировать. (Ну, если только условно).

        С интересом жду продолжения рассказа.

        • Виктор
          03.12.2013 19:39

          Я бы не стал ограничиваться большими вводом больших данных сразу. Да, проекты по ретроконверсии есть, но их не очень много, т.к. не во всех отраслях их можно обосновать экономически. Частый аргумент: "нужные атрибуты уже ввели руками, а возможность полнотекстового поиска не окупит затраты, да и данные устаревают..."

          Если говорить о вводе новых документов, то там тоже могут быть большие объемы. В банках и страховых из топ10 объем обрабатываемых документов исчисляется десятками тысяч в день, а у лидеров - сотни тысяч. У ритейла очень много документов, но эта отрасль быстро движется в сторону электронного взаимодействия с контрагентами.

          • Виктор Федько
            Рейтинг: 367
            Независимый эксперт
            Эксперт
            03.12.2013 19:54

            Да мне кажется, что вообще все постепенно все-таки идет в сторону электронного взаимодействия. Бумага анахронизмом становится. Я за это начал сейчас борьбу у себя с разной степенью успеха.Постепенный перевод всех бумаг в цифру, ввод простой ЭП и т.п.
            Но пока все в будущем и приходится думать о минимизации ошибок при вводе.

            Вот,кстати, столкнулся не так давно с ошибками :
            При , вводе технологий ,где есть материалы, часто ошибаются и ставят кг. вместо гр. Нормально,да? Материала идет 500 или 600 или 800 грамм - есть такие. И недешевые. А ставят кг. !
            В производство все равно пойдет в граммах,а вот при расчетах себестоимости, НЗП и прочего - понятно что. У меня народ иной раз на стенку лезет, когда в итоговых отчетах вместо тысяч десятки миллионов выскакивают.
            Боремся. С переменным успехом)))

  • 03.12.2013 17:01

    Было бы интересно познакомится с конкретными примерами.
    Полностью согласен, примеров очень мало. Какие примеры встречались мне:
    • Анализ ошибок в клиентской контактной информации. Одна из задач, для которых нужны данные клиента - маркетинговые активности. Их эффект считает большинство компаний. По результатам рассылки на e-mail получаем список несуществующих ящиков (как список недоставленных писем). По этим адресам ищем исходные документы и проверяем источник ошибки (заполнение или ввод). Зная средний эффект от одного письма и количество ошибок ввода, получаем нижнюю границу потерь.
    • Стоимость проверяемых ошибок. Анализировались бухгалтерские документы. Ошибка в стоимости одной из многих позиций приводит к расхождению сумм. Инцидент замечается пользователем, который тратит время на поиск корректной информации и исправление. Это время можно измерить и конвертировать в потери.
    а). Ошибка при вводе ( если речь идет о ручном вводе больших массивов, то самым действенным способом проверки остается верификация. Количество ошибок при этом сводится к нулю. Лично в этом много лет убеждался)
    б). Ошибка при создании первичного документа, который подлежит вводу. Здесь сложнее. Если вводит человек, создавший документ - то есть варианты проверок. Если другой, оператор - то вероятность "проскакивания" ошибки возрастает.
    Во второй части статьи расскажу какой опыт борьбы с ошибками ввода мне встречался. Чуть подробнее расскажу про проверки в документах и про изменение самих документов (если это возможно).

  • Марк Шварцблат
    Рейтинг: 30
    КТ "Акведук"
    ИТ-директор
    11.12.2013 16:12

    Отказ от бумаг требует коренной реформы законов и сонма подзаконных актов. Пока везде правит бумажка с живой подписью, к сожалению.

    • Марк
      11.12.2013 17:05

      Реформы идут, хотя и не быстро.
      А в текущих условиях встречаются случаи, когда обмен данными производится в электронном виде, а бумага приезжает потом. Да, есть риск что на бумаге придет не то, что было в электронном виде. Но некоторые компании оценивают ущерб от потенциального мошенничества ниже, чем затраты на ручной ввод.

      • Марк Шварцблат
        Рейтинг: 30
        КТ "Акведук"
        ИТ-директор
        11.12.2013 17:32

        Вялотекуще. Все же, почти везде, где требуется взаимодействие с физическими лицами, бумажка царит. Регистрация на портале госуслуг требует личного появления с паспортом, согласие на обработку данных в электронном виде в магазине подписи. :)

  • 11.12.2013 17:52

    Во многих организациях, особенно холдингах, группах компаний, разбросанных по стране, давно уже настоящие бумажки делают только для общения с внешним миром. Внутри - полностью электронное общение. И это одна из немногих сфер, мне кажется, где можно с уверенностью говорить о положительных эффектах, в том числе счетных, от внедрения ИТ.
    А государство - ну что с него взять...принять закон об ЭЦП в 2002 году и до сих пор не принять ничего, что говорило бы "электронный документ - это документ". Вы наверно слышали, что теперь у нас 3D-проблемы? К двум традиционным, с дорогами и дураками, еще и депутаты имеются.

Предметная область
Отрасль
Управление
Мы используем файлы cookie в аналитических целях и для того, чтобы обеспечить вам наилучшие впечатления от работы с нашим сайтом. Заходя на сайт, вы соглашаетесь с Политикой использования файлов cookie.