synOCR synOCR - GUI für OCRmyPDF

MrNeon · 27. Jan 2022

Erledigt!

geimist · 27. Jan 2022

Mit welchem Programm betrachtest du deine PDFs?
Ich kann hier jedes Wort einwandfrei finden

Auch deinen Namen (den ich hier im Beispiel nicht nehmen wollte).

Bildschirmfoto 2022-01-27 um 21.19.00.png

MrNeon · 27. Jan 2022

Mit „Drive“ auf dem Ipad … warum geht es denn teilweise im Backup, aber nicht in Output?

DUBIOS!

geimist · 27. Jan 2022

Vielleicht ist es eine Frage der Indizierung. Guck dir mal ein fertiges Dokument mit einem richtigen PDF-Viewer an.

MrNeon · 27. Jan 2022

Mit Adobe gehts … aber ich will ja ne Art papierloses Büro haben … also es sollen alle PDFs nach einem Begriff durchsucht werden …

geimist · 27. Jan 2022

Wie du siehst, sind sie es ja auch. Es liegt nicht am PDF!
Wie gesagt: meine Vermutung ist, dass es an der Indizierung liegt. Entweder ist der Inputordner nicht für die Dokumentindizierung aufgenommen, oder halt (zwischenzeitlich) noch nicht indiziert.

PS: Guck mal HIER

MrNeon · 27. Jan 2022

Du hast Recht … es lag an der Indexierung … warum wird denn das nicht im Hintergrund erledigt? Muss ich jedes Mal wenn ich ein PDF hinzufüge wieder neu manuell Indexieren?

geimist · 27. Jan 2022

Es kann sein, dass die Änderungen auf der Shell nicht gleich erkannt werden. Beim nächsten Indizieren würde es dann wohl mit aufgenommen werden.

MrNeon · 27. Jan 2022

… ich werde das mal beobachten … Danke Dir für die tolle Unterstützung!

syn2022 · 28. Jan 2022

Ich bin gerade bei der Installation. Welches Dockerimage von "OCRmyPDF" muss ich installieren? (gibt eine ganze Auswahl)
Oder wird das durch synOCR installiert?

geimist · 28. Jan 2022

Wird durch synOCR erledigt (sollte so auch im instsllationsdialog gestanden haben, sofern es mindestens die Version 1.2.0 ist)

syn2022 · 28. Jan 2022

Vielen Dank.

MacAir13 · 28. Jan 2022

Ich unternehme gerade erste Versuche mit der YAML-Datei: als targetfolder habe ich einen "gemeinsamen Ordner" auf Synology Drive bestimmt: "/volume1/unternehmen/Ablage". Die gescannten Dokumente landen allerdings weiterhin im Ordner "Output". Wie müsste man richtigerweise "gemeinsame Ordner" als targetfolder benennen?
Das gescannte Dokumente erhält zwar das Datum des gescannten Dokuments im Anschluss wird aber der Dateiname angehängt, den mein Scanner (Brother MFC-L2750DW) vorgibt. Ich könnte zwar den Dateinamen in den Scaneinstellungen des Druckers bspw. auf "." abkürzen, meine aber, dass sich das auch durch synOCR erledigen lassen müsste.

geimist · 28. Jan 2022

MacAir13 schrieb:
Die gescannten Dokumente landen allerdings weiterhin im Ordner "Output".

Dann wird die entsprechende Regel im YAML-File nicht erfüllt. Nur wenn die Bedingung erfüllt ist (d.h. -searchstring gefunden wurde), greift auch die Verschiebung in den regelbasierten Ordner. Kannst du deine Regel mal posten. Was steht im Log?

HIER findest du ein paar zusätzliche Erklärungen.

MacAir13 schrieb:
Das gescannte Dokumente erhält zwar das Datum des gescannten Dokuments im Anschluss wird aber der Dateiname angehängt, den mein Scanner (Brother MFC-L2750DW) vorgibt.

Dann schau dir mal die Umbenennungssyntax in der GUI an. Hier hast du bestimmt die Variable §tit (= Titel) im Namen belassen. §tit steht für den ursprünglichen Namen.

syn2022 · 29. Jan 2022

Vielen Dank für dieses tolle Tool. Es funktioniert zu 100% wie ich es mir erhofft habe.

Ich habe noch eine weitere Frage.
Gibt es eine Möglichkeit die Rechnungsnummer (nicht das Wort Rechnung) zu erkennen und als Teil des Dateinamens zu verwenden?
(Rechnung_9030185.pdf oder Lieferschein_636738.pdf)
(->suche nach Rechnung, wenn gefunden dann die nächsten 7 Zahlen die nicht leer sind nehmen)

Vielen Dank

geimist · 29. Jan 2022

Das geht nur mit den erweiterten Regeln.
Guck mal hier: https://git.geimist.eu/geimist/synOCR/wiki/03_YAML_de#suche-vor-oder-nach-einem-bekannten-muster

laborious · 29. Jan 2022

Hallo zusammen,

zuerst mal vielen Dank geimist / Stephan für das großartige Tool. Es ist echt der Hammer.

Ich habe folgende Anforderung und finde aktuell nicht die richtige Konfiguration, die zu meinem gewünschten Ergebnis führt.

Ich habe bereits meine Dokumente in einer sprechenden Ordnerstruktur abgelegt. Diese würde ich gerne so weiter behalten. Leider sind die Dokumente darin ohne OCR. Das würde ich jetzt gerne nachholen. Für die einmalige Konvertierung habe ich das Skript „recursive_inputdir_workflow.sh“ gefunden. Ich vermute, ohne es versucht zu haben, führt das erstmal zu dem, was ich erwarten würde.

Wenn ich jetzt in meine Ordnerstruktur wieder neu gescannte Dokumente ablege, sollen diese auch wieder durch die OCR laufen. Da macht es aber m.E. keinen Sinn immer wieder das o.g. Skript auszuführen und alle Dokumente hin und her zu kopieren.

Daher war ich der naiven Vorstellung ich stelle den Input Ordner auf meine jetzige vorhandene Ordnerstruktur. Den Output Ordner setze ich gleich dem Input Ordner. So geht das Programm immer wieder durch meine vorhanden Ordnerstruktur / Dokumente, überspringt durch den Parameter -s die bereits OCRten Dokumente und nur die neu hinzugekommen Dokumente werden mit OCR aufbereitet. Hierbei soll keine Umbenennung des Dateinamens erfolgen. Genau hier kommt das Problem. Bei jedem Durchlauf wird „(1)“ an die Datei hinzugefügt.

Auszug aus dem Log:

„File name already exists! Add counter (1)”

Klar ich könnte auch die Dokumente erst durch die OCR laufen lassen und dann in meine Ordnerstruktur einsortieren. In dem Fall muss ich aber immer erst warten, bis der OCR-Job gelaufen ist oder den OCR Lauf manuell anstoßen.

Hat jemand für mein Vorhaben eine Lösung?

Vielen Dank

geimist · 29. Jan 2022

Zunächst herzlich willkommen hier im Forum

Lass dich vom Parameter -s nicht täuschen. Der verhindert aussschließlich die erneute Texterkennung in OCRmyPDF. Alle anderen Funktionen wie z.B. die Bildoptimierung in OCRmyPDF, Tagsuche und Umbenennung werden dennoch durchgeführt. Das ist also nicht das Mittel der Wahl.
Und wie du schon sagst: recursive_inputdir_workflow.sh ist für den einmaligen Gebrauch konzipiert.

Vielleicht hat jemand noch eine andere Idee, aber mir kommen nur folgende Szenarien in den Sinn:

Du versuchst mittels Regeln deine bisherige Ordnerstruktur beizubehalten. Dateien, bei denen keine Regel greift, bleiben im Outputordner.
Du gibst deine bisherige Ordnerstruktur auf und orientierst dich an den Regelergebnissen
Du sortierst im Nachhinein grundsätzlich manuell (wohl die sicherste, aber unschönste Lösung)

Deinen Gedanken mit dem Input- und Outputordner verstehe ich noch nicht richtig.

laborious schrieb:
Daher war ich der naiven Vorstellung ich stelle den Input Ordner auf meine jetzige vorhandene Ordnerstruktur. Den Output Ordner setze ich gleich dem Input Ordner. … Genau hier kommt das Problem. Bei jedem Durchlauf wird „(1)“ an die Datei hinzugefügt.

Der Inputordner wird nicht rekursiv abgearbeitet, sondern nur in der obersten Ebene.

TJ. · 30. Jan 2022

@geimist
Guten Morgen Stephan,

geimist schrieb:
neue Dokumente kommen bereits mit einen Präfix in den Inputordner (so etwas kann man z.T. im Scannerprofil als Dateiname einstellen)
SCAN_0815.pdf

Kann man eigentlich auch in der Präfix-Vorgabe mehrere Vorgaben eingeben, als OR quasi?

laborious · 30. Jan 2022

Hallo Stephan,

danke Dir für die schnelle Rückmeldung.

geimist schrieb:
Der Inputordner wird nicht rekursiv abgearbeitet, sondern nur in der obersten Ebene.

Genau das war meine Annahme gewesen. OK, dann fällt das raus.

Ich denke dann werde ich die Variante 1 versuchen. Wenn das nicht zu dem gewünschten Ergebnis führt, werde ich zu Variante 2 umsteigen.

Allen noch einen schönen Sonntag.
Viele Dank und Grüße