pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Status
Für weitere Antworten geschlossen.

whocares

Benutzer
Mitglied seit
10. Okt 2018
Beiträge
52
Punkte für Reaktionen
1
Punkte
8
Klasse, vielen Dank! Der Aufruf des Dockercontainers lässt doch als Paramater eine Outputdatei zu; könnte man da nicht "einfach" den Zielordner per Variable übergeben, welche man in der Datei config.php definiert? Vermutlich tritt dann da ebenfalls das Zugriffsproblem auf :-(
 

rabu

Benutzer
Mitglied seit
26. Sep 2013
Beiträge
278
Punkte für Reaktionen
2
Punkte
24
Ich bin das Problem mit den Dateien verschieben so angegangen.
Ich habe eine Shell Datei im Texteditor erstellt, die ich mit "move" Befehlen und den entsprechenden Zielordnern füttere.
Über den Aufgabenplaner lasse ich die Datei ausführen und sie verschiebt die OCR gescannten Dateien in ihre richtigen Ordner.
Läuft wunderbar.
Habt ihr Fragen dazu, dann bitte melden. Bevor ich jetzt alles mit Screenshots kommentiere und es niemand braucht.
 

whocares

Benutzer
Mitglied seit
10. Okt 2018
Beiträge
52
Punkte für Reaktionen
1
Punkte
8
Würde mich über genau so eine Anleitung freuen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.525
Punkte für Reaktionen
1.359
Punkte
234

rabu

Benutzer
Mitglied seit
26. Sep 2013
Beiträge
278
Punkte für Reaktionen
2
Punkte
24
@geimist: Ja, danke, ich habe deine PN bekommen. Heruntergeladen und installiert. Zum Ausprobieren komme ich leider erst heute Abend aber dann gebe ich dir auf jeden Fall Bescheid.

@all: Ich werde noch mit meiner Anleitung warten, dass was ich jetzt von geimist gesehen habe schein richtig cool zu sein. Morgen um diese Zeit wissen wir mehr.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.525
Punkte für Reaktionen
1.359
Punkte
234
Brauchst dich doch nicht entschudligen. Ich dachte mir schon, dass du sie nicht gesehen hattest :)
Sobald ich ein paar positive Feedbacks bekommen habe, stelle ich es via cphub.net für alle zur Verfügung.
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
449
Punkte für Reaktionen
8
Punkte
18
Hi Stephan,

darf ich an dem Test vielleicht auch teilnehmen?

vg
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
ich würde es auch sehr gerne ausprobieren ;-)
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
mega, danke! Funktioniert auch in Team-Ordnern. Eine Frage dazu: Bleiben durchsuchbare pdfs unberücksichtigt? d.h. wenn ich als Quell und Zielordner ein- und derselbe Ordner sind, wird das Probleme geben oder schnappt sich das Programm nur die undurchsuchbaren pdfs? Meine Arbeitsumgebung sieht aus: Mehrere Mitarbeiter greifen auf einen bestimmten Ordner zu und legen dort regelmäßig pdf-Dateien (Kundenaufträge) ab. Diese sollen einmal pro Tag (bzw. Nacht) in durchsuchbare pdfs umgewandelt werden, die Originaldateien werden in ein Archiv verschoben. Im Prinzip funktioniert das auch so wie ich mir das vorstelle, wenn ich als Quell- und Zielordner ein und denselben Ordner angebe und einen separaten Archivordner für die Originale. Nur ist die Frage was passiert, wenn da mal ein paar hundert pdfs drinliegen, werden die alle jedes mal erneut gescannt?
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
@elbaero
In der Konfiguration steht hinter jedem Feld ein "i". Beim Drüberhovern wird alles erklärt.
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
stimmt, danke, bei den OCR-Optionen hatte ich nicht drübergehovert, sorry.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Kleiner Tipp: Wenn die PDFs nicht wieder durchsucht werden sollen, kannst du das mittels dem Präfix verhindern.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.525
Punkte für Reaktionen
1.359
Punkte
234
Fragen zu synOCR sollten der Ordnung wegen im entsprechenden Thread diskudiert werden.

Aber weil ich jetzt eh schon hier schreibe:
… Nur ist die Frage was passiert, wenn da mal ein paar hundert pdfs drinliegen, werden die alle jedes mal erneut gescannt?
Für jede Datei wird der Dockercontainer OCRmyPDF gestartet. Er erkennt dann BEIM bearbeiten, dass bereits ein Textlayer vorhanden ist. Aus Performancegründen würde ich mit verschiedenen Ordnern, bzw. mit dem Renamepräfix arbeiten.

Antworten dann bitte im anderen Thread.
 

elbaero

Benutzer
Mitglied seit
21. Sep 2014
Beiträge
24
Punkte für Reaktionen
0
Punkte
1
ok danke, wird gemacht
 

nelsonsg

Benutzer
Mitglied seit
17. Nov 2013
Beiträge
14
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,

es gibt auch einen Container mit dem Namen pombeirp-ocrmypdf-watchdog (https://hub.docker.com/r/pombeirp/ocrmypdf-watchdog/). Da ist neben OCRmyPDF direkt Watchdog für einen Hot-Folder enthalten. Man muss nur die beiden Ordner /archive/ und /hot-folder/ mit lokalen Verzeichnissen verbinden und dann läuft der Container super. Geht seit Tagen bei mir.

Grüße Rap
 

HannesG

Benutzer
Mitglied seit
29. Jan 2019
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,
erstmal Danke für die Entwicklung des Scripts.
Mich interessiert folgendes.
Ist es machbar, dass das Script
1. einen bestimmten Wert durch Ocr erkennt und den Text im Nachgang als Dateinamen verwendet?

Beispiel: Im Text steht: Auftragsnummer: 265362525. Kann dieser Wert "265362525" dann als Vorlage für die Umbenennung werden?

2. Erkennen von vordefinierten #Tags (das müsste es ja, so wie ich es gelesen habe, mit den Hashtasgs schon funktionieren) und dann in einen bestimmten Ordner verschieben.
Bsp: Erkennung von: (ktoauszug) Sparkasse -> move to Ordner /Sparkasse.

Ich hoffe positives zu hören :) Oder wie man das umsetzen kann.
Danke
Hannes
 

Chris122

Benutzer
Mitglied seit
12. Mrz 2019
Beiträge
35
Punkte für Reaktionen
0
Punkte
6
Hallo Stefan!

Auch von mir ein großes Dankeschön für deine Arbeit und dass du sie zur Verfügung stellst. Dein Script läuft bei mir einwandfrei. Eine kleine Hürde sind die Umlaute und deren Codierung in der config (rename-rules und tagrules). Anstatt der Umlaute in Klarschrift, muss man halt die ISO-codierten Symbole verwenden, um dann UTF-8-Ausgabe im Dateinamen zu erhalten (oder wars andersrum? Naja, du weißt was ich meine). Ich hab mir einfach die Symbolkombinationen für Umlaute direkt in der config als Kommentar bereitgestellt und kopiere sie dann bei Bedarf einfach in den jeweiligen Array runter.

Was das Verschieben der fertigen Dateien angeht, versteh ich grundsätzlich deinen Ansatz. Natürlich sollte jede renamed-PDF auf Schlüssigkeit kontrolliert werden. Nur finde ich es auch sehr unübersichtlich, die für die manuelle Nachbearbeitung fertigen OCRed-PDFs in der "Inbox" zu belassen. Wenn man da mal in ner Woche 100 Dateien durch den Scanner jagd und erst am Wochenende Zeit für die Nachbearbeitung hat, kann man zwischendurch auch fehlerhafte (nicht bearbeitete) Dateien nicht so leicht von den unbearbeiteten und den ocr'ed-en Dateien unterscheiden. Ich arbeite mit einem Pyhton-Script, welches die moves durchführt. Sauber ist das aber nicht, da ich (und das ist die hässliche Lösung) keine "Kontrollinstanz" einbauen kann (dafür reichen meine Programmierkenntnisse nicht, um zB auf einen bestehenden Textlayer zu kontrollieren). Sauber wäre es, könnte dein Script im loop, direkt nach dem rename, die aktuelle im handling befindliche Datei in einen "Kontrollordner" moven, ehe die nächste Datei zum Zug kommt. Mit (m)einer Script-in-Script-Lösung ist das nicht unmöglich.

Ich hab schon mitbekommen, dass du kaum Zeit für dieses Script hast, zudem scheint es geimist gerade gewisssermaßen weiter zu entwickeln (allerdings nicht mehr als Script). Ich glaube und hoffe aber, dass die move-Funktion für dich nur einen sehr geringen Aufwand darstellt (in Python sind es zB nur ein paar Zeilen) und du dich diesem großen Anliegen der Community noch annehmen kannst :eek:

Zuletzt zur Datumserkennung: soweit ich das in deinem Script gesehen habe, läuft die Datumserkennung nicht, wenn sie im Format dd. Monat-ausgeschrieben yyyy vorliegt (was aber praktisch immer der Fall in Geschäftsbriefen ist). Glaubst du dieses Format auch noch mit einbauen zu können?

Ansonsten absolut großartige Arbeit!! Vielen Dank dafür!!

Christian
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat