synOCR synOCR - GUI für OCRmyPDF

Mit welchem Programm betrachtest du deine PDFs?
Ich kann hier jedes Wort einwandfrei finden 🤷‍♂️
Auch deinen Namen (den ich hier im Beispiel nicht nehmen wollte).

Bildschirmfoto 2022-01-27 um 21.19.00.png
 
Mit „Drive“ auf dem Ipad … warum geht es denn teilweise im Backup, aber nicht in Output?

DUBIOS!
 
Vielleicht ist es eine Frage der Indizierung. Guck dir mal ein fertiges Dokument mit einem richtigen PDF-Viewer an.
 
Mit Adobe gehts … aber ich will ja ne Art papierloses Büro haben … also es sollen alle PDFs nach einem Begriff durchsucht werden …
 
Wie du siehst, sind sie es ja auch. Es liegt nicht am PDF!
Wie gesagt: meine Vermutung ist, dass es an der Indizierung liegt. Entweder ist der Inputordner nicht für die Dokumentindizierung aufgenommen, oder halt (zwischenzeitlich) noch nicht indiziert.

PS: Guck mal HIER
 
Zuletzt bearbeitet:
Du hast Recht … es lag an der Indexierung … warum wird denn das nicht im Hintergrund erledigt? Muss ich jedes Mal wenn ich ein PDF hinzufüge wieder neu manuell Indexieren?
 
Es kann sein, dass die Änderungen auf der Shell nicht gleich erkannt werden. Beim nächsten Indizieren würde es dann wohl mit aufgenommen werden.
 
… ich werde das mal beobachten … Danke Dir für die tolle Unterstützung!
 
Ich bin gerade bei der Installation. Welches Dockerimage von "OCRmyPDF" muss ich installieren? (gibt eine ganze Auswahl)
Oder wird das durch synOCR installiert?
 
Wird durch synOCR erledigt (sollte so auch im instsllationsdialog gestanden haben, sofern es mindestens die Version 1.2.0 ist)
 
  • Like
Reaktionen: syn2022
Ich unternehme gerade erste Versuche mit der YAML-Datei: als targetfolder habe ich einen "gemeinsamen Ordner" auf Synology Drive bestimmt: "/volume1/unternehmen/Ablage". Die gescannten Dokumente landen allerdings weiterhin im Ordner "Output". Wie müsste man richtigerweise "gemeinsame Ordner" als targetfolder benennen?
Das gescannte Dokumente erhält zwar das Datum des gescannten Dokuments im Anschluss wird aber der Dateiname angehängt, den mein Scanner (Brother MFC-L2750DW) vorgibt. Ich könnte zwar den Dateinamen in den Scaneinstellungen des Druckers bspw. auf "." abkürzen, meine aber, dass sich das auch durch synOCR erledigen lassen müsste.
 
Die gescannten Dokumente landen allerdings weiterhin im Ordner "Output".
Dann wird die entsprechende Regel im YAML-File nicht erfüllt. Nur wenn die Bedingung erfüllt ist (d.h. -searchstring gefunden wurde), greift auch die Verschiebung in den regelbasierten Ordner. Kannst du deine Regel mal posten. Was steht im Log?

HIER findest du ein paar zusätzliche Erklärungen.

Das gescannte Dokumente erhält zwar das Datum des gescannten Dokuments im Anschluss wird aber der Dateiname angehängt, den mein Scanner (Brother MFC-L2750DW) vorgibt.
Dann schau dir mal die Umbenennungssyntax in der GUI an. Hier hast du bestimmt die Variable §tit (= Titel) im Namen belassen. §tit steht für den ursprünglichen Namen.
 
  • Like
Reaktionen: MacAir13
Vielen Dank für dieses tolle Tool. Es funktioniert zu 100% wie ich es mir erhofft habe.

Ich habe noch eine weitere Frage.
Gibt es eine Möglichkeit die Rechnungsnummer (nicht das Wort Rechnung) zu erkennen und als Teil des Dateinamens zu verwenden?
(Rechnung_9030185.pdf oder Lieferschein_636738.pdf)
(->suche nach Rechnung, wenn gefunden dann die nächsten 7 Zahlen die nicht leer sind nehmen)

Vielen Dank
 
  • Like
Reaktionen: syn2022
Hallo zusammen,

zuerst mal vielen Dank geimist / Stephan für das großartige Tool. Es ist echt der Hammer.

Ich habe folgende Anforderung und finde aktuell nicht die richtige Konfiguration, die zu meinem gewünschten Ergebnis führt.

Ich habe bereits meine Dokumente in einer sprechenden Ordnerstruktur abgelegt. Diese würde ich gerne so weiter behalten. Leider sind die Dokumente darin ohne OCR. Das würde ich jetzt gerne nachholen. Für die einmalige Konvertierung habe ich das Skript „recursive_inputdir_workflow.sh“ gefunden. Ich vermute, ohne es versucht zu haben, führt das erstmal zu dem, was ich erwarten würde.

Wenn ich jetzt in meine Ordnerstruktur wieder neu gescannte Dokumente ablege, sollen diese auch wieder durch die OCR laufen. Da macht es aber m.E. keinen Sinn immer wieder das o.g. Skript auszuführen und alle Dokumente hin und her zu kopieren.

Daher war ich der naiven Vorstellung ich stelle den Input Ordner auf meine jetzige vorhandene Ordnerstruktur. Den Output Ordner setze ich gleich dem Input Ordner. So geht das Programm immer wieder durch meine vorhanden Ordnerstruktur / Dokumente, überspringt durch den Parameter -s die bereits OCRten Dokumente und nur die neu hinzugekommen Dokumente werden mit OCR aufbereitet. Hierbei soll keine Umbenennung des Dateinamens erfolgen. Genau hier kommt das Problem. Bei jedem Durchlauf wird „(1)“ an die Datei hinzugefügt.

Auszug aus dem Log:

„File name already exists! Add counter (1)”

Klar ich könnte auch die Dokumente erst durch die OCR laufen lassen und dann in meine Ordnerstruktur einsortieren. In dem Fall muss ich aber immer erst warten, bis der OCR-Job gelaufen ist oder den OCR Lauf manuell anstoßen.

Hat jemand für mein Vorhaben eine Lösung?

Vielen Dank
 
Zunächst herzlich willkommen hier im Forum :)

Lass dich vom Parameter -s nicht täuschen. Der verhindert aussschließlich die erneute Texterkennung in OCRmyPDF. Alle anderen Funktionen wie z.B. die Bildoptimierung in OCRmyPDF, Tagsuche und Umbenennung werden dennoch durchgeführt. Das ist also nicht das Mittel der Wahl.
Und wie du schon sagst: recursive_inputdir_workflow.sh ist für den einmaligen Gebrauch konzipiert.

Vielleicht hat jemand noch eine andere Idee, aber mir kommen nur folgende Szenarien in den Sinn:
  1. Du versuchst mittels Regeln deine bisherige Ordnerstruktur beizubehalten. Dateien, bei denen keine Regel greift, bleiben im Outputordner.
  2. Du gibst deine bisherige Ordnerstruktur auf und orientierst dich an den Regelergebnissen
  3. Du sortierst im Nachhinein grundsätzlich manuell (wohl die sicherste, aber unschönste Lösung)
Deinen Gedanken mit dem Input- und Outputordner verstehe ich noch nicht richtig.
Daher war ich der naiven Vorstellung ich stelle den Input Ordner auf meine jetzige vorhandene Ordnerstruktur. Den Output Ordner setze ich gleich dem Input Ordner. … Genau hier kommt das Problem. Bei jedem Durchlauf wird „(1)“ an die Datei hinzugefügt.
Der Inputordner wird nicht rekursiv abgearbeitet, sondern nur in der obersten Ebene.
 
@geimist
Guten Morgen Stephan,

neue Dokumente kommen bereits mit einen Präfix in den Inputordner (so etwas kann man z.T. im Scannerprofil als Dateiname einstellen)
SCAN_0815.pdf
Kann man eigentlich auch in der Präfix-Vorgabe mehrere Vorgaben eingeben, als OR quasi?
 
Hallo Stephan,

danke Dir für die schnelle Rückmeldung.

Der Inputordner wird nicht rekursiv abgearbeitet, sondern nur in der obersten Ebene.
Genau das war meine Annahme gewesen. OK, dann fällt das raus.

Ich denke dann werde ich die Variante 1 versuchen. Wenn das nicht zu dem gewünschten Ergebnis führt, werde ich zu Variante 2 umsteigen. ;)

Allen noch einen schönen Sonntag.
Viele Dank und Grüße
 
  • Like
Reaktionen: geimist
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat