alexs » 23.11.2016 16:23:36
Да там в принципе никаких библиотек не родится. Это всё консольные утилиты.
Если не будет лень - напишу статью с описанием процесса.
Но в целом всё просто:
Документы за день собраны в строгом порядке - 1-й лист документа имеет штрихкод. Далее идут все относящиеся к этому документы листы (транспортные, доверенности, и.т.д.) Следующий документ опять начинается со страницы с штрихкодом. и т.д.
Потоковый сканер формирует файлы изображения - doc0001.jpg, doc0002.jpg, doc0003.jpg, docXXXXX.jpg
Мой модуль просто запускает zbarimg и смотрит, что он выдал
1. Если штрихкод найден - то считаем, что новый документ.
2. Тестируем последующие файлы до следующего штрихкода.
3. Потом по найденному в (1) штрихкоду ищем документ в базе.
4. Все файлы которые были найдены в рамках (2) слива в одну PDF.
5. Прикрепляю её к документу в хранилище.
6. Если файлы изображений есть - то идём к (1).
Всё.
Там конечно будут дополнительные проверки. С помощью tesseract планирую дополнительно проверять ошибки по находждению документов - вдруг штрихкод не прочитается.