Распознавание накладных и классификация данных

Здравствуйте коллеги, мне нужна консультация по процессу от Метро. Сейчас у нас есть идеи как выполнить заказ, но есть и большие опасения что не сработает. Там будет распознавание Накладных, у нас есть доступ к большому количеству образцов. Мы протестировали ЯндексOCR и ABBY.
Нужны рекомендации по способу классификации данных и ряд других вопросов.
Итак мы имеем:

  1. Проблема 1. 500+ поставщиков со своими вариациями документов. Т. е. в худшем случае под каждого поставщика нужно создавать персональный алгоритм?
  2. Проблема 2. Так как данные будем брать из массива, в случае если вертикальность скана будет нарушена, мы получим не корректные данные. Как этого избежать, можем ли мы отслеживать это и отправлять на ручную модерацию?
  3. Проблема 3. В случае неправильного распознавания какого либо символа, робот будет передавать неправильные данные в 1С клиента.Как этого избежать, можем ли мы отслеживать это и отправлять на ручную модерацию?
    Решения:
  • Тут напрашивается решение с созданием словаря, но непонятно как это будет работать?
  • Еще может ли 1С выявлять неправильные данные и ругаться?

Добрый день, @StingRay!

  1. Все верно, зависит от степени того, насколько они отличают друг от друга. Необходимо продумывать для каждого документа логику вручную и по возможности поделить их на “классы”, т.к. при использовании ключевых слов для извлечения необходимых данных возможно использовать один алгоритм для нескольких форматов документов.
  2. (3.) Небольшой поворот не критичен. В данном случае возможно задать шаблоны для значений из конкретных полей с помощью регулярных выражений на JavaScript. При получении значений, не подходящих под шаблон, робот может отправлять данный документ на ручную модерацию.

Использование словаря возможно для сверки роботом наименований компаний контрагентов и товаров. Робот может сверять значения с этой базой и сообщать если не были найдены совпадения. Также это возможно делать с помощью 1С, если данные контрагенты и товары есть в базе данных. При вводе значений в 1С возможно проверять существует ли подсказка в виде выпадающего списка с найденным наименованием. Если данный элемент с подсказкой не появляется, возможно также отправлять данный документ на ручную модерацию.

Если у вас остались вопросы – пожалуйста, обращайтесь!

Спасибо за ответ.
Насколько оправдано подключение платного сервиса ABBYY?
Сегодня общались с партнерским отделом ABBYY, их продукт выдает данные в виде таблицы, которые легко забирать и как я понял таблица данных может быть кастомной.
При использовании Яндекс OCR мы получаем массив данных и париться с сбором данных придется самостоятельно.
Все ли правильно в моих рассуждениях?

@StingRay, подскажите, пожалуйста, какой платный сервис ABBYY Вы имеете в виду?

В платформе используется ABBYY Cloud OCR SDK, для использования которого также необходимо иметь ключ ABBYY. Результат в данном случае - строка распознанных элементов.

Верно, при использовании Yandex OCR в качестве результата получаем массив распознанных элементов. Также в данном массиве присутствуют параметры координат каждого элемента относительно всего документа и язык распознавания, например:

{ "language": "rus", "location": { "height": 15, "width": 78, "x": 208, "y": 160 }, "text": "г. Москва" }.

С помощью простых методов на языке JavaScript (push, join и т.д.) возможно извлечь значения из массива, чтобы получить только распознанный текст, что в целом является структурой результатов ABBYY.

Имел ввиду abbyy flexicapture

Добрый день. Имхо, если у компании есть abbyy flexicapture, то, конечно, нет смысла облако использовать.

Добрый день, @StingRay!

Это другой продукт ABBYY, отличный от встроенного в платформу. Вы можете при возможности автоматизировать работу с ним алгоритмически через работу с интерфейсом данного сервиса.

Добрый день!
Можем обсудить возможность распознавания с помощью нашего сервиса который работает на базе Яндекс OCR.
Перед отправкой на Яндекс мы выполняем предобработку изображений, поворот.
Мы умеем обрабатывать все типовые бухгалтерские документы (ТОРГ-12, Счет, Акт, Счет-фактура, УПД), различные логистические документы, личные и кадровые документы.
В случае необходимости мы можем подключать наш штат операторов для верификации неуверенно распознанных данных.

Здравствуйте, вы сможете настроить выдачу данных в виде таблицы по заданным параметрам?
Стоимость услуги?

Можем настроить любой формат передачи.
Пришлите пожалуйста пример нужного формата.
По тарифам напишу в личку.