synOCR synOCR - GUI für OCRmyPDF

geimist · 07. Feb. 2020

Ich kann da auch nicht so viel dazu sagen. Ich habe ja mit ocrmypdf als solches auch keinen größeren Einblick. Bei meinem Test mit deiner Datei werden auch die Zahlen über dem ursprünglichen Barcode nicht richtig gelesen (werden als Text interpretiert …). Evtl. hängt es mit der Nähe zur Grafik (Barcode) zusammen? Probierte hatte ich es übrigens mit dem Polyglot-Image von mir, aber das ist nichts anderes als das von jbarlow83 - nur um alle Sprachpakete erweitert.

Frage doch mal direkt bei jbarlow83 nach (https://github.com/jbarlow83/OCRmyPDF)

geimist · 07. Feb. 2020

Ich habe mal die Datei mit höheren DPI gesichert und nochmal durchlaufen lassen. So werden bei mir die Zahlen korrekt erkannt.

Versuche es mal bitte mit einer höheren Scanauflösung.

winka · 08. Feb. 2020

Vielen Dank!

Das wollte ich auch versuchen. Und ich werde es einmal mit der Brother-Software ORCen lassen.
Eine höhere Auflösung ist in der weiteren Praxis weniger ein Thema. Ich werde wohl am die Parameter von OCR ran müssen.
Ich finde es nur komisch, das die Zahlen des Aufklebers so Schwierigkeiten machen.

geimist · 08. Feb. 2020

winka schrieb:
… Ich finde es nur komisch, das die Zahlen des Aufklebers so Schwierigkeiten machen.

Auch die original aufgedruckten Zahlen über dem Barcode wurden bei mir ja auch nicht (korrekt) erkannt. Ich glaube nicht, dass hier ein Zusammenhang zu deinen Aufklebern besteht.

dewenni · 09. Feb. 2020

Ich hab mal eine vermutlich allgemeine Frage bezüglich Sonderzeichen und Escape.
Ich würde gerne als Tag ein Stichwort mit "&" suchen.
Beispielsweise H&M
Prinzipiell klappt das auch, aber im Dateinamen steht dann #H§tagM

Wenn ich ein Backslash als Escape Zeichen vor das & stelle, wird der Tag nicht mehr erkannt.

Weiß jemand wie man das hin bekommt?

geimist · 09. Feb. 2020

Sorry, ist ein Bug.
Version v0.16.1 ist auf dem Weg - damit sollte es dann richtig funktionieren.

dewenni · 09. Feb. 2020

grandios! Danke
Werde testen und berichten

apejovic · 12. Feb. 2020

Moin miteinander!

Also erst mal ein großes Lob an dich @geimist. Tolle Arbeit. Ich hoffe die Schnapszahl-Spende konnte Dich wenigstens etwas beglücken. Natürlich erwarte ich jetzt Lifetime-Service

Bin mit meinem testen noch nicht fertig, aber das OCRen von nicht OCR Dokumenten klappt schon mal super.

Hierzu hätte ich mal ein paar Fragen, falls mir das jemand beantworten könnte:

geimist schrieb:
....ohne SSH habe ich jetzt keine Idee …

1. Wie sieht so eine Befehl per SSH aus? (Irgendetwas leichtes bitte)
2. Wie schnell würde diese Konfiguration "greifen"?
3. Wie lange bleibt diese Änderung per SSH erhalten?
4. SSH ohne dann nur ohne GUI?

Danke

geimist · 12. Feb. 2020

apejovic schrieb:
… Ich hoffe die Schnapszahl-Spende konnte Dich wenigstens etwas beglücken. Natürlich erwarte ich jetzt Lifetime-Service …

Ich hoffe, meine kurze Antwort hatte dich erreicht?

1. Wie sieht so eine Befehl per SSH aus? (Irgendetwas leichtes bitte)
2. Wie schnell würde diese Konfiguration "greifen"?
3. Wie lange bleibt diese Änderung per SSH erhalten?
4. SSH ohne dann nur ohne GUI?

Der Aufruf würde einfach so aussehen (wahrscheinlich nur von root, da sich sonst Docker nicht steuern lässt):

Rich (BBCode):

/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Was ist dein genaues Ziel? Wie gesagt: ich sehe es praktischer, synOCR in kurzen Intervallen zu starten (wenn benötigt), als mit einem zusätzlichen Hintergrunddienst einen Folderwatcher zu implementieren.

stb6756 · 14. Feb. 2020

Hallo!
Habe eine Frage zu den Pfaden:
Ich möchte PDF-Dateien verarbeiten, die auf einem Netzwerkpfad liegen.
Wie kann ich diesen Netzwerkpfad als lokales Volume einbinden, um dann darin die OCR-Jobs zu triggern?
Danke!

TeXniXo · 14. Feb. 2020

Auf die gleiche Art und Weise, wie du andere Ordner in Explorer einbindest - oder verstehe ich deine Frage falsch?
Wo liegt denn dein Ordner, der PDFs "sammelt"?

geimist · 14. Feb. 2020

Ich verstehe es so, dass sich das Ziel des Netzwerkpfads nicht auf der DS befindet. Also musst du zunächst das Ziel als Remoteordner in der Filestation (FileStation > extras > Remote Ordner bereitstellen > Freigegebener CIFS-Ordner) mounten. Den entsprechenden Pfad in der Filestation kannst du dann in den synOCR-Einstellungen eintragen.

dewenni · 16. Feb. 2020

geimist schrieb:
Sorry, ist ein Bug.
Version v0.16.1 ist auf dem Weg - damit sollte es dann richtig funktionieren.

funktioniert jetzt mit 0.16.1

Vielen Dank für den tollen Support!

AceTheFace · 17. Feb. 2020

Hi geimist,

vielen Dank für deine tolle Arbeit! Ich würde mich gerne ein bißchen tiefer mit dem Tool beschäftigen, da ich gerne komplexere Regeln für das Einsortieren definieren möchte (Beispiel: Tag1 und Tag2 aber nicht Tag3 --> Zielordner). Ich habe mir auch mal den Source ausgecheckt und mir nen groben Überblick geschafft. Soweit ist mir klar, wie es funktioniert, was mir aber noch gar nicht klar ist, wie denn die Entwicklungsumbegung für so ein DS Tool aussieht:

* Arbeitest du lokal und baust/deployst das dann auf das NAS zum Testen?
* Liegt der Source auf dem NAS und kann von dort direkt gestartet/getestet werden? Wenn ja, wie?

Würde mich freuen, wenn du mir ein paar Tipps geben könntest. Revanchiere mich dann vielleicht schon bald mit nem PR ;-)

Gruß und danke,
Ace

aHTo5Dh2LU1e69YcWwZg · 18. Feb. 2020

Hallo zusammen,

auch von mir ein herzliches Dankeschön für die tolle OCR-Lösung!

Habe mir gerade eine Tagliste in Excel erstellt. Damit kann ich die Reihenfolge der Tags festlegen (z.B. zuerst die Tags mit den Absendern, dann die mit den Empfängern, dann Inhalttags).
Nach den letzten Ergänzungen hat sich der GUI beim Speichern allerdings verabschiedet, d.h. er hat nicht gespreichert und die Meldung "[Server] hat die Verbindung unerwartet geschlossen." Nach meinen Erkenntnissen ist die Grenze der Tags bei 264 erreicht.

Kann man die Anzahl irgendwie erhöhen? Bzw. ist die Grenze in synOCR oder in OCRmyPDF festgelegt?

Vielen Dank für die Rückmeldung!

geimist · 18. Feb. 2020

Ab wie viel Zeichen funktioniert das Tag-Feld nicht mehr?
Ich fürchte, es wird an der Formularübertragung scheitern, sobald die Datenmenge zu groß ist …

aHTo5Dh2LU1e69YcWwZg · 18. Feb. 2020

Sind 4113 Zeichen inkl. Semikolons

beogaard · 18. Feb. 2020

geimist schrieb:
Freut mich, wenn es euch freut

Noch ist das Programm jung; die Userwünsche entsprechend viele. Die Frequenz wird langfristig sicherlich nicht so bleiben können.
Wenn es nur kleinere Dinge sind, dann bekommen wir das schon schnell hin. Derzeit knappere ich gerade an den gewünschten User-Profilen, welche ich nicht mehr in der Konfigurations-Textdatei, sondern als Datenbank abbilden will, was wiederum umfangreicher als gedacht ist …

(@koen: deine gewünschte Funktion für Trennseiten kommt erst danach …)

Moin @geimist,

erst einmal auch von mir ein riesen Kompliment an das Tool.
Super Job und eine super Hilfe.
Wie kann ich Dir eigentlich eine Spende zukommen lassen?

Und dann würde ich gern nochmal das Thema Trennseite aufgreifen.
Siehst Du eine Möglichkeit mehrere Quelldokumente mit jeweils einer blanko Seite zur Trennung als ein PDF einzuscannen und bei Durchlauf von synoOCR in einzelne Dokumente aufzusplitten?

Danke nochmal für deinen tollen Einsatz.

Grüße aus Hamburg
Björn

geimist · 18. Feb. 2020

Das habe ich auf dem Schirm, bin aber diesbezüglich noch nicht weiter gekommen …

geimist · 18. Feb. 2020

aHTo5Dh2LU1e69YcWwZg schrieb:
… Kann man die Anzahl irgendwie erhöhen? Bzw. ist die Grenze in synOCR oder in OCRmyPDF festgelegt?…

Ich kann dir leider keine schnelle Lösung anbieten. Wir müssen mal gucken, wie wir das in Zukunft handhaben werden.
Sorry

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat