Проблема Yandex OCR

В последнее время часто стала появляться ошибка

Cannot read property ‘pages’ of undefined

на распознавании jpg файлов.
Размеры файлов не более мегабайта.

Закономерность не выявлена. То работает, то не работает.

В чём может быть дело?

Добрый день, @neekuser!

Подскажите, воспроизводится ли у Вас на данный момент подобная ошибка? Это повторяется если использовать один и тот же файл? В течение какого времени данная ошибка наблюдалась? Сообщите, также версию платформы и ОС.
Спасибо!

Сегодня не проверял, не до того было.
три последних дня, как минимум.
Повторяется и на одних и тех же. И на других. Статистика не набралась. Но чаще одни и те же.
Прогонялся комплект из 140 пдф, разбитых на страницы и преобразованных в jpg, в среднем страниц 5 на пдф. То есть около 700 картинок. Из них где-то 25-30 ошибок, 10-15 на одних и тех же, остальные - случайно

В конечном счёте, удалось обработать все, с 4й-5й попытки.

@neekuser, для определения причины данной проблемы потребуется дополнительная информация. Пришлите, пожалуйста, видеозапись с описанием свойств блоков алгоритма либо сам алгоритм или его часть на которой воспроизводится данная ошибка.
Также, опишите, пожалуйста, сколько проходило времени между попытками? Как быстро удалось прогнать все файлы успешно? Происходил ли отлов ошибок в алгоритме и логирование попыток, либо робот останавливался и Вы вручную производили запуски?
Спасибо.

Видео, естественно, не будет.

  • Block properties
    Recognizes an image text using the Yandex OCR technology.
    Calculate a value: pic
    Recognition area не использовалось

Между попытками - полчаса-час
Логирование попыток, да.

Вот так:

2020-03-29T12:57:38.906Z
pic=c:\tmp\tmp1.jpg
Cannot read property 'pages' of undefined
{
  "name": "tmp1.jpg",
  "extension": ".jpg",
  "length": 322994,
  "creation_time": "2020-03-29T09:41:32.1030969+04:00",
  "last_access_time": "2020-03-29T16:57:04.8335861+04:00",
  "last_write_time": "2020-03-29T16:57:04.8335861+04:00"
}

@neekuser, пришлите, пожалуйста, скриншот Вашего алгоритма и файл, на котором воспроизвелась данная ошибка. Можете скрыть всю конфиденциальную информацию на картинке.

Видите ли, на моём широком мониторе вся эта блоксхема (только одной субпрограммы из нескольких) занимает 8х3 экранов. Затруднительно. Причём ошибка возникает в разных программах.

А суть одна, вот:

Я это к чему… Алгоритм никак не влияет на результат.

@neekuser, спасибо. У Вас есть возможность прислать файл (tmp1.jpg) на котором воспроизвелась ошибка?

это происходит на разных картинках практически случайно.
Если замазывать личные данные пациентов, ничего не останется от картинки.

Обычные сканы ~ 3000х2400 300DPI

@neekuser, можете описать вид этих документов? Это таблицы? Всегда ли остаётся похожая структура либо документы меняются?

“length”: 322994,

В сообщении выше у Вас указано логирование, в данном случае это длина массива полученного от распознавания одного из документов?

Документы меняются. Шапка, текст, возможны небольшие таблицы с рамками

Это длина файла в байтах

@neekuser, спасибо за информацию. Взяли описанную ситуацию в дополнительное тестирование.
Поскольку возникающая ошибка носит случайный и достаточно редкий характер, стоит делать обработку этой ошибки и начинать новую итерацию при её возникновении.