synOCR synOCR - GUI für OCRmyPDF

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Die Nutzung von Tags und Unterordnern ist klasse. Verstehe ich das richtig, dass der Tagstring "Rechnung;Amazon;Computer=Rechnung" alles in den Ordner "Rechnung" verschiebt, wenn eine der Conditions zutrifft? Ist es möglich das zu differenzieren mit AND/OR/XOR etc?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Nein.

Mit deiner Taglist sucht du jetzt nach:
> Rechnung
> Amazon
> Computer (was wiederum bei Fund von "Computer" in den Unterordner "Rechnung" kopiert wird - "Computer" bleibt aber im Dateinamen enthalten, sofern in der Renamesyntax eingestellt)

Eine Kombinationsmöglichkeit wurde ja schonmal gewünscht und das sehe auch ich als sehr nützlich an. Ich weiß nur noch nicht, wie ich das unkompliziert im Skript abbilden kann.

Nachtrag:
Um alles nach Rechnung zu verschieben, musst du es so angeben:
Rechnung=Rechnung;Amazon=Rechnung;Computer=Rechnung
 
Zuletzt bearbeitet:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Bzgl. der Profile kämpfe ich auch noch. Habe folgendes festgestellt:
Die Aussage in der Konfiguration "werden ALLE beim Lauf abgearbeitet" kann so nicht stimmen. Es läuft bei mir immer nur das default Profil.
Beispiel: Habe ich ein Profil "Kinder" mit Tag Schule=Kinder, wird das PDF in den Ordner "Kinder" verschoben, wenn diese Konfig im default Profil steht.
Gibt es aber noch ein Profil Kinder (mit der Konfig wie beschrieben - und default leer oder deaktiviert) bleibt das PDF im Zielverzeichnis und wird nicht verschoben.

Ich habe bisher nur über die GUI ohne Cronjob gearbeitet und auch beim extra Laden des Profils "Kinder" ändert sich nichts zu meiner obigen Aussage.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
… Habe ich ein Profil "Kinder" mit Tag Schule=Kinder, wird das PDF in den Ordner "Kinder" verschoben, wenn diese Konfig im default Profil steht. …
Sprichst du hier von 2 unterschiedlichen Profilen (Kinder oder default)?
… Ich habe bisher nur über die GUI ohne Cronjob gearbeitet und auch beim extra Laden des Profils "Kinder" ändert sich nichts zu meiner obigen Aussage.

Ein Cronjob ändert daran nichts und auch nicht, welches Profil in der Konfiguration aktuelle geladen ist.

Wie sieht denn das Symbol in der Übersichtsseite aus, wenn noch eine Datei im Profil Kinder offen ist (blaue Sanduhr, oder grüner Haken)?
 
Zuletzt bearbeitet:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Ja zwei (und mehr... hier nur zur Vereinfachung) Profile. Kinder soll bzgl. Tags sich um das "Thema" kümmern. Das default Profil ist ja von Dir so "dabei".

Ich teste das mit genau einer "Kinderdatei". Die wird nur verschoben, wenn ich das default Profil mit den gleichen Tags fülle, welche schon im Kinderprofil vorhanden sind. Deine Frage bzgl. übersichtsseite verstehe ich nicht.
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
… Ich teste das mit genau einer "Kinderdatei". Die wird nur verschoben, wenn ich das default Profil mit den gleichen Tags fülle, welche schon im Kinderprofil vorhanden sind. …
Jedes Profil muss für sich eigenständig nutzbar sein - wie bei dir, sollte es also nicht sein.
… Deine Frage bzgl. übersichtsseite verstehe ich nicht.
Wenn keine Dateien offen sind, siehst du auf der Übersichtsseite von synOCR rechts oben einen grünen Haken. Ist mindestens eine Datei ein irgendeinem Profil abzuarbeiten, so siehst du dort eine Sanduhr.

Mich interessiert:
* Wie sieht das Symbol aus, wenn du eine offene Datei in dem Profil hast, welche nicht abgearbeitet wird
* Bitte überprüfe den Inputpfad und ggf. den Such-Präfix in dem entsprechenden Profil
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Mich interessiert:
* Wie sieht das Symbol aus, wenn du eine offene Datei in dem Profil hast, welche nicht abgearbeitet wird
* Bitte überprüfe den Inputpfad und ggf. den Such-Präfix in dem entsprechenden Profil

Ich raffe es immer noch nicht. :)
Vielleicht mach ich ja was falsch mit der Konfiguration.
- Alle Profile lesen aus dem selben Pfad.
- Alle Profile haben unterschiedliche Tags, welche zu unterschiedlichen Kategorieverzeichnissen führen.

Lege ich nun also die Testdatei "Kinder" mit "Kinderinhalttags" in den Pfad, erwarte ich, dass beim OCR erkannt wird, dass der Begriff "Schule" drin vorkommt und das Profil "Kinder" zieht.
Die Datei wird aber vom Default Profil abgearbeitet, welches bewusst "leer" ist, ohne Tags und ohne Kategorieverzeichnissen, was dazu führt, dass die Datei geOCRt wird, aber im Zielpfad landet ohne Kategorieunterverzeichnis.

D.h. ich habe "nichts offen", sondern die Datzei wird nicht gemäss den Profileinstellungen abgearbeitet, sondern via "default".
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
- Alle Profile lesen aus dem selben Pfad.
Hier ist das Problem. Das Profil "default" liest das PDF, welches Im Pfad liegt, arbeitet es ab und legt es ab (output-Ordner). Danach wird das Kinderprofil abgearbeitet, aber dann ist kein PDF mehr da.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Genau. Ich denke, du hast wahrscheinlich das Konzept etwas falsch verstanden. Die Profile beziehen sich nicht auf den Inhalt, sondern auf unterschiedliche Konfigurieren / User. Die Dateien sollten für die einzelnen Profile schon vorsortiert sein und durch den Suchpräfix oder den Inputordner differenzierbar sein.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Ah ok! Dann passt das Profilkonzept nicht zu meinem Konzept. Ich will eine gewisse Massenverarbeitung implementieren, welche mich von der Vorsortierung entlastet. Dachte, durch die Profile und deren passende Tags behalte ich da die Übersicht.
D.h. Ich packe alle erdenklichen Tags in ein Profil.
Hoffe, da gibts keine Lãngenbeschrãnkung.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Wenn ich das jetzt richtig gelesen habe, sind es 1MB (also 1000000 Zeichen) - also für die Praxis eher unbedeutend
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ich habe ein bisschen detaillierte getestet und bin auf einen Fehler gestoßen.

Beispiel 1:

FEHLER diese Dateie wurde dann doppelt in OUTBOX\scan dateiname.pdf hinterlegt …

Ist mit synOCR 0.15.1 behoben.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Darf ich bzgl. PDFs eine etwas offtopic-lastige Frage stellen?
Da synoocr so gut funktioniert, möchte ich jetzt einige PDFs da durchschlaufen.
Ich habe jedoch keinen überblick, welche PDFs schon Text enthalten.....
Ich würde nun gern eine Vorbearbeitung machen und via einem Art Batchprozess die PDFs finden, welche noch nicht geOCRed wurden.

Adobe Acrobat hat so etwas integriert, doch wie alles von Adobe ist das aufgeblasen und nicht stabil im Dauerbetrieb.
Gibt es irgendwelche Tools (Betriebssystem egal) welche mich da unterstützen könnten?

Ich möchte bewusst NICHT bereits OCR PDFs nochmal durchlaufen lassen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Solange du als Parameter nicht --force-ocr setzt, sollten Seiten mit Text-Layer von OCRmyPDF übersprungen werden (ist im Log zu erkennen). Die weitere Verarbeitung mit Tags und Umbenennung ect. sollte aber (wenn ich das jetzt richtig im Kopf habe) dennoch abgearbeitet werden.

Einfach mal mit einer Testdatei probieren.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat