OCR не видит данные в документе

Здравствуйте!

Суть задачи : вывести данные со скана накладной и конкретные значения записать в Excel.
В принципе, здесь всё понятно, надо находить текст по шаблону в выделенных зонах, либо искать текст в полученном массиве для создания “якоря”, и по “якорю” уже искать значения.
Проблема состоит в том, что ни один из доступных OCR (Яндекс, Google, Microsoft) не может полностью распознать накладную, из-за чего остаются пустые места на месте значений.

Теперь вопрос такой: как можно улучшить распознание текста (как-то подготовить документ) или стоит написать на js обработку пустых значений и отправлять документ на обработку?

Просто из 10 сканов ни один не получил абсолютно все значения :confused:

Здравствуйте!

Вероятность распознавания зависит от множества параметров. Со своей стороны можем предоставить вам следующие рекомендации:

  1. В первую очередь влияет качество самого документа. Если есть возможность предварительно изменить настройки сканирования - попробуйте увеличить качество (разрешение) сканирования. Например, ABBYY советует использовать следующие параметры: обычные тексты с размером шрифта 10 и более пунктов рекомендуется сканировать с разрешением равным 300 dpi. Тексты, набранные мелким шрифтом (9 и менее пунктов) — с разрешением 400–600 dpi.
  2. Если обрабатываются заранее отсканированные документы - попробуйте изменить их контрастность и яркость, затем распознать повторно.

ни один из доступных OCR (Яндекс, Google, Microsoft) не может полностью распознать накладную

Советуем также попробовать решение от ABBYY. Подробнее о его подключении читайте, пожалуйста, в инструкции.