synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Mit welchem Programm betrachtest du deine PDFs?
Ich kann hier jedes Wort einwandfrei finden 🤷‍♂️
Auch deinen Namen (den ich hier im Beispiel nicht nehmen wollte).

Bildschirmfoto 2022-01-27 um 21.19.00.png
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Mit „Drive“ auf dem Ipad … warum geht es denn teilweise im Backup, aber nicht in Output?

DUBIOS!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Vielleicht ist es eine Frage der Indizierung. Guck dir mal ein fertiges Dokument mit einem richtigen PDF-Viewer an.
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Mit Adobe gehts … aber ich will ja ne Art papierloses Büro haben … also es sollen alle PDFs nach einem Begriff durchsucht werden …
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Wie du siehst, sind sie es ja auch. Es liegt nicht am PDF!
Wie gesagt: meine Vermutung ist, dass es an der Indizierung liegt. Entweder ist der Inputordner nicht für die Dokumentindizierung aufgenommen, oder halt (zwischenzeitlich) noch nicht indiziert.

PS: Guck mal HIER
 
Zuletzt bearbeitet:

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Du hast Recht … es lag an der Indexierung … warum wird denn das nicht im Hintergrund erledigt? Muss ich jedes Mal wenn ich ein PDF hinzufüge wieder neu manuell Indexieren?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Es kann sein, dass die Änderungen auf der Shell nicht gleich erkannt werden. Beim nächsten Indizieren würde es dann wohl mit aufgenommen werden.
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
… ich werde das mal beobachten … Danke Dir für die tolle Unterstützung!
 

syn2022

Benutzer
Mitglied seit
19. Jan 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Ich bin gerade bei der Installation. Welches Dockerimage von "OCRmyPDF" muss ich installieren? (gibt eine ganze Auswahl)
Oder wird das durch synOCR installiert?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Wird durch synOCR erledigt (sollte so auch im instsllationsdialog gestanden haben, sofern es mindestens die Version 1.2.0 ist)
 
  • Like
Reaktionen: syn2022

MacAir13

Benutzer
Mitglied seit
07. Feb 2014
Beiträge
21
Punkte für Reaktionen
0
Punkte
1
Ich unternehme gerade erste Versuche mit der YAML-Datei: als targetfolder habe ich einen "gemeinsamen Ordner" auf Synology Drive bestimmt: "/volume1/unternehmen/Ablage". Die gescannten Dokumente landen allerdings weiterhin im Ordner "Output". Wie müsste man richtigerweise "gemeinsame Ordner" als targetfolder benennen?
Das gescannte Dokumente erhält zwar das Datum des gescannten Dokuments im Anschluss wird aber der Dateiname angehängt, den mein Scanner (Brother MFC-L2750DW) vorgibt. Ich könnte zwar den Dateinamen in den Scaneinstellungen des Druckers bspw. auf "." abkürzen, meine aber, dass sich das auch durch synOCR erledigen lassen müsste.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Die gescannten Dokumente landen allerdings weiterhin im Ordner "Output".
Dann wird die entsprechende Regel im YAML-File nicht erfüllt. Nur wenn die Bedingung erfüllt ist (d.h. -searchstring gefunden wurde), greift auch die Verschiebung in den regelbasierten Ordner. Kannst du deine Regel mal posten. Was steht im Log?

HIER findest du ein paar zusätzliche Erklärungen.

Das gescannte Dokumente erhält zwar das Datum des gescannten Dokuments im Anschluss wird aber der Dateiname angehängt, den mein Scanner (Brother MFC-L2750DW) vorgibt.
Dann schau dir mal die Umbenennungssyntax in der GUI an. Hier hast du bestimmt die Variable §tit (= Titel) im Namen belassen. §tit steht für den ursprünglichen Namen.
 
  • Like
Reaktionen: MacAir13

syn2022

Benutzer
Mitglied seit
19. Jan 2022
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Vielen Dank für dieses tolle Tool. Es funktioniert zu 100% wie ich es mir erhofft habe.

Ich habe noch eine weitere Frage.
Gibt es eine Möglichkeit die Rechnungsnummer (nicht das Wort Rechnung) zu erkennen und als Teil des Dateinamens zu verwenden?
(Rechnung_9030185.pdf oder Lieferschein_636738.pdf)
(->suche nach Rechnung, wenn gefunden dann die nächsten 7 Zahlen die nicht leer sind nehmen)

Vielen Dank
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
  • Like
Reaktionen: syn2022

laborious

Benutzer
Mitglied seit
29. Jan 2022
Beiträge
2
Punkte für Reaktionen
1
Punkte
53
Hallo zusammen,

zuerst mal vielen Dank geimist / Stephan für das großartige Tool. Es ist echt der Hammer.

Ich habe folgende Anforderung und finde aktuell nicht die richtige Konfiguration, die zu meinem gewünschten Ergebnis führt.

Ich habe bereits meine Dokumente in einer sprechenden Ordnerstruktur abgelegt. Diese würde ich gerne so weiter behalten. Leider sind die Dokumente darin ohne OCR. Das würde ich jetzt gerne nachholen. Für die einmalige Konvertierung habe ich das Skript „recursive_inputdir_workflow.sh“ gefunden. Ich vermute, ohne es versucht zu haben, führt das erstmal zu dem, was ich erwarten würde.

Wenn ich jetzt in meine Ordnerstruktur wieder neu gescannte Dokumente ablege, sollen diese auch wieder durch die OCR laufen. Da macht es aber m.E. keinen Sinn immer wieder das o.g. Skript auszuführen und alle Dokumente hin und her zu kopieren.

Daher war ich der naiven Vorstellung ich stelle den Input Ordner auf meine jetzige vorhandene Ordnerstruktur. Den Output Ordner setze ich gleich dem Input Ordner. So geht das Programm immer wieder durch meine vorhanden Ordnerstruktur / Dokumente, überspringt durch den Parameter -s die bereits OCRten Dokumente und nur die neu hinzugekommen Dokumente werden mit OCR aufbereitet. Hierbei soll keine Umbenennung des Dateinamens erfolgen. Genau hier kommt das Problem. Bei jedem Durchlauf wird „(1)“ an die Datei hinzugefügt.

Auszug aus dem Log:

„File name already exists! Add counter (1)”

Klar ich könnte auch die Dokumente erst durch die OCR laufen lassen und dann in meine Ordnerstruktur einsortieren. In dem Fall muss ich aber immer erst warten, bis der OCR-Job gelaufen ist oder den OCR Lauf manuell anstoßen.

Hat jemand für mein Vorhaben eine Lösung?

Vielen Dank
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.377
Punkte
234
Zunächst herzlich willkommen hier im Forum :)

Lass dich vom Parameter -s nicht täuschen. Der verhindert aussschließlich die erneute Texterkennung in OCRmyPDF. Alle anderen Funktionen wie z.B. die Bildoptimierung in OCRmyPDF, Tagsuche und Umbenennung werden dennoch durchgeführt. Das ist also nicht das Mittel der Wahl.
Und wie du schon sagst: recursive_inputdir_workflow.sh ist für den einmaligen Gebrauch konzipiert.

Vielleicht hat jemand noch eine andere Idee, aber mir kommen nur folgende Szenarien in den Sinn:
  1. Du versuchst mittels Regeln deine bisherige Ordnerstruktur beizubehalten. Dateien, bei denen keine Regel greift, bleiben im Outputordner.
  2. Du gibst deine bisherige Ordnerstruktur auf und orientierst dich an den Regelergebnissen
  3. Du sortierst im Nachhinein grundsätzlich manuell (wohl die sicherste, aber unschönste Lösung)
Deinen Gedanken mit dem Input- und Outputordner verstehe ich noch nicht richtig.
Daher war ich der naiven Vorstellung ich stelle den Input Ordner auf meine jetzige vorhandene Ordnerstruktur. Den Output Ordner setze ich gleich dem Input Ordner. … Genau hier kommt das Problem. Bei jedem Durchlauf wird „(1)“ an die Datei hinzugefügt.
Der Inputordner wird nicht rekursiv abgearbeitet, sondern nur in der obersten Ebene.
 

TJ.

Benutzer
Mitglied seit
29. Apr 2021
Beiträge
40
Punkte für Reaktionen
3
Punkte
14
@geimist
Guten Morgen Stephan,

neue Dokumente kommen bereits mit einen Präfix in den Inputordner (so etwas kann man z.T. im Scannerprofil als Dateiname einstellen)
SCAN_0815.pdf
Kann man eigentlich auch in der Präfix-Vorgabe mehrere Vorgaben eingeben, als OR quasi?
 

laborious

Benutzer
Mitglied seit
29. Jan 2022
Beiträge
2
Punkte für Reaktionen
1
Punkte
53
Hallo Stephan,

danke Dir für die schnelle Rückmeldung.

Der Inputordner wird nicht rekursiv abgearbeitet, sondern nur in der obersten Ebene.
Genau das war meine Annahme gewesen. OK, dann fällt das raus.

Ich denke dann werde ich die Variante 1 versuchen. Wenn das nicht zu dem gewünschten Ergebnis führt, werde ich zu Variante 2 umsteigen. ;)

Allen noch einen schönen Sonntag.
Viele Dank und Grüße
 
  • Like
Reaktionen: geimist


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat