Распознавание документов

Стоит задача распознавания типового документа по шаблону. Со скана паспорта надо считать ФИО итд. В связи с тем что сканы имеют разный размер, выполняются на разных устройствах, использовать распознавание по шаблону не дало хорошего результата. Какие есть варианты решения такой задачи?

Добрый вечер, @bond!

В данном случае возможно использовать распознавание документа полностью без шаблона поскольку документ имеет конкретные ключевые слова и вид.

Можно в полученном массиве элементов проводить поиск по конкретным ключевым словам (или набору таких слов), т.к. мы имеем определённый формат документа. Т.е., например, робот может искать слово Фамилия в документе и извлекать все следующие значения, идущие “до” какого-либо следующего ключевого слова, например, “Имя”. Таким образом робот извлечёт все строчки, находящиеся между данными значениями.

Проводить разбивку полученных значений в соответствии со значениями (чтобы ничего лишнего не было извлечено) возможно используя регулярные выражения либо параметры координат (не фиксировано, а относительно полученных параметров координат другого слова в документе).