synOCR synOCR - GUI für OCRmyPDF

essteebee · 16. März 2019

peterhoffmann schrieb:
Test 2:
1 Seite DIN A4
600dpi Farbe
1660kb

Ausgabe:
--optimize 0 => 1348kb
--optimize 1 => 1348kb
--optimize 2 => 1243kb
--optimize 3 => 1047kb

Gleiches Ergebnis bei mir mit 300 DPI Farbe: optimize 0 und optimize 1 sind gleich groß, etwas kleiner als das Original und beide "lossy"...

peterhoffmann · 16. März 2019

essteebee schrieb:
optimize 0 und optimize 1 sind gleich groß

Ich habe den Test mal etwas umfangreicher gemacht. Meine Testreihe umfasste nun 14 (willkürlich ausgewählte) PDF-Dokumente (001 bis 014), die allesamt grau oder schwarz-weiß sind.

Rich (BBCode):

001 Original   => 150 kb
001 Optimize 0 => 135 kb
001 Optimize 1 => 135 kb

002 Original   => 34 kb
002 Optimize 0 => 44 kb
002 Optimize 1 => 36 kb

003 Original   => 90 kb
003 Optimize 0 => 102 kb
003 Optimize 1 => 74 kb

004 Original   => 96 kb
004 Optimize 0 => 99 kb
004 Optimize 1 => 99 kb

005 Original   => 38 kb
005 Optimize 0 => 48 kb
005 Optimize 1 => 39 kb

006 Original   => 56 kb
006 Optimize 0 => 66 kb
006 Optimize 1 => 47 kb

007 Original   => 68 kb
007 Optimize 0 => 80 kb
007 Optimize 1 => 61 kb

008 Original   => 229 kb
008 Optimize 0 => 244 kb
008 Optimize 1 => 160 kb

009 Original   => 72 kb
009 Optimize 0 => 85 kb
009 Optimize 1 => 64 kb

010 Original   => 228 kb
010 Optimize 0 => 244 kb
010 Optimize 1 => 166 kb

011 Original   => 50 kb
011 Optimize 0 => 60 kb
011 Optimize 1 => 47 kb

012 Original   => 93 kb
012 Optimize 0 => 105 kb
012 Optimize 1 => 83 kb

013 Original   => 132 kb
013 Optimize 0 => 147 kb
013 Optimize 1 => 108 kb

014 Original   => 26 kb
014 Optimize 0 => 33 kb
014 Optimize 1 => 26 kb

Fazit:
Es gibt einen Unterschied zwischen Optimize 0 und Optimize 1.
Dokumente, die mit "--optimize 0" bearbeitet werden, sind teilweise sogar etwas größer als der Originalscan, wiederum Dokumente, die mit "--optimize 1" bearbeitet werden, sind eher kleiner als der Originalscan.

Gute Nacht!

geimist · 16. März 2019

essteebee schrieb:
… Bei mir funktioniert alles gut, nur scheint bei mir der Parameter --optimize keine Wirkung zu haben:
- ohne Angabe des Parameters: Original: 2.283 KB --> OCR: 1.469 KB, dabei aber deutliche Artefakte durch Komprimierung zu erkennen wenn ich auf 600% zoome
…
habe ich da einen Denkfehler?

Hallo essteebee,

Denkfehler sehe ich hier keinen, aber mit synOCR habe ich auch keinen wirklichen Einfluss darauf - ist ja nur 'ne GUI. Dass der Parameter korrekt übergeben wird, siehst du ja an den Unterschieden der Ausgabe. Gibt es evtl. Hinweise im LOG (im Bereich OCRmyPDF)?
Wenn du da ein Problem siehst, kannst du mal direkt beim Entwickler von OCRmyPDF auf GitHub nachfragen.
Die Dokumentation kennst du ja wahrscheinlich schon.

peterhoffmann schrieb:
… Wenn keine Angabe erfolgt, scheint --optimize 1 der Standard zu sein …

Das ist korrekt.

essteebee · 16. März 2019

Nach ein paar Stunden weiterer Versuche direkt auf der Kommandozeile von OCRmyPDF habe ich die Ursache gefunden:

Die Option -deskew hat zur Folge, dass die Bilder komprimiert werden und Artefakte entstehen. Wenn ich sie weg lasse sieht die PDF 100% wie das Original aus.

Optimize 0 und 1 hatten keinen Effekt weil ich eine optimize-ratio von 1.0 hatte und damit 0 % "Einsparung".

Folglich sehe ich für mich folgende Optionen
1. deskew weglassen --> hat eine etwas geringere OCR-Qualität zur Folge aber PDF wird nicht unnötig komprimiert
2. deskew lassen --> bessere OCR-Qualität aber Komprimierung mit Artefakten
3. deskew lassen und "oversample -600" --> PDF sieht annähernd gleich aus und OCR-Qualität ist gut, die Dateien aber auch merklich größer (ungefähr Faktor 2)

Ich werde erstmal mit Variante 1 weiter machen, der Gewinn an OCR-Qualität rechtfertigt nicht die anderen Nachteile von 2. bzw. 3.

geimist · 16. März 2019

Vielen Dank für dein Feedback

cutzenfreund · 17. März 2019

Hey @geimist
ich habe das Problem gefunden!

Ich war die letzte Woche unterwegs und habe DSM immer über die extern erreichbare URL aufgerufen (mit https). Dort tritt das Problem weiterhin auf. Seit heute bin ich wieder zuhause. Rufe ich DSM über die internet Netzwerk IP auf (egal ob mit oder ohne https) geht alles.

Andere Apps haben damit keine Probleme. Eventuell gibt es da einen Bug?

Darum gehts: https://www.synology-forum.de/showt...I-für-OCRmyPDF&p=817299&viewfull=1#post817299

geimist · 17. März 2019

Ich denke, es ist das gleiche Problem wie bei TeXniXo. Bitte teste mal, ob diese Lösung hilft.

cutzenfreund · 17. März 2019

geimist schrieb:
Ich denke, es ist das gleiche Problem wie bei TeXniXo. Bitte teste mal, ob diese Lösung hilft.

Absolut korrekt! Super danke. Geht

Sonntag saved.

arphex · 17. März 2019

peterhoffmann schrieb:
I
Dem kann ich mich nur anschließen. Ich bin auch sehr froh, dass Geimist sich diesem Projekt angenommen hat.

Absolut! geimist for President !

Hafer · 17. März 2019

arphex schrieb:
geimist for President !

Moment, wer pflegt dann das Projekt?

peterhoffmann · 17. März 2019

Hafer schrieb:
Moment, wer pflegt dann das Projekt?

Das macht dann der Trump. *duck-und-weg*

TeXniXo · 17. März 2019

Ja, genau - Mauer um das Projekt und es ist sicher und bugfree

Also das mit "Browser-Kompatibilität" ist in der Tat die "universelle" Lösung ... so wie es scheint, rennt es bis dato ohne Probleme. Danke jedenfalls für den Hinweis!

geimist · 21. März 2019

synOCR v0.15.0

IMPLEMENTIERUNGEN:

Die Konfiguration wurde von einer Textdatei auf eine Datenbank umgestellt. So lassen sich jetzt beliebige Profile verwalten.
(in Verbindung mit individuellen Such-Präfixen kann man so z.B. einen gemeinsamen Input-Ordner, aber individuelle Ausgabeordner mit individuellen Tags nutzen)
Übersichts- und Statusseite zusammengeführt
INFO: Das Textfeld für die Tags ist zwar jetzt mehrzeilig, es dürfen aber derzeit keine Zeilenumbrüche verwendet werden!
Detailverbesserungen in der GUI

reiki · 21. März 2019

Danke, Stephan, für deine engagierte Fortentwicklung von synOCR.

mamema · 21. März 2019

geimist schrieb:
synOCR v0.15.0
...

hab Dein Tool heute Abend entdeckt. Dachte... oje ob das funktioniert, was wird das für ein gebastel.... 180 Sekunden später lief das Ding. Super Sache! Einfach toll!
Danke sehr.

mamema · 22. März 2019

könnte mir mal jemand (gern mehrere

, welche synocr sehr umfangreich nutzen, ihr TAG Feld hier rein pasten. Ich suche noch Denkanstösse nach dem Motto: Aha, genau.... oder Aha, daran hab ich noch gar nicht gedacht. Danke im Voraus.

lord_zunami · 22. März 2019

Ich habe ein bisschen detaillierte getestet und bin auf einen Fehler gestoßen.
Tags, Zielordner nach Kategorie zuordnen und nach Tagnamen umbenennen

Beispiel 1:
zu suchende Tags: User1;User2;User3;Arzt1=Zahnarzt;Arzt2=Kinderarzt
Suchbereich für Tags: nur erste Seite + Ziel-PDF in Kategorieordner einsortieren
OCR Rename-Syntax: §y-§m-§d §tag
Ergebnis:
OK Der Ziel-PDF Ordner wird erstellt zB Zahnarzt
OK Dateien wurden unbenannt und in Kategorie hinterlegt OUTBOX\Zahnarzt\2019-01-01 #User2 #Arzt1.pdf
FEHLER diese Dateie wurde dann doppelt in OUTBOX\scan dateiname.pdf hinterlegt
OK Dateien die keine Kategorie haben OUTBOX\2019-01-01 #User1.pdf

Beispiel 2:
zu suchende Tags: User1;User2;User3;Arzt1=Zahnarzt;Arzt2=Kinderarzt
Suchbereich für Tags: nur erste Seite + Ziel-PDF in Tagordner einsortieren
OCR Rename-Syntax: §y-§m-§d §tag
Ergebnis:
OK Der Ziel-PDF Ordner wird erstellt zB User1
OK Dateien wurden unbenannt und in Kategorie hinterlegt OUTBOX\User2\2019-01-01 #User2 #Arzt1.pdf
OK Dateien die keine Tag haben OUTBOX\2019-01-01.pdf

Cyberbob19 · 22. März 2019

Hallo,

@geimist: Dein Tool setze ich nun seit einigen Wochen ein und was soll ich sagen... SUPER ARBEIT! Vielen Dank!

P.S. Den Donate Button in der Hilfe habe ich gefunden und auch direkt einmal genutzt.

Gruß
Bob

geimist · 22. März 2019

geimist · 22. März 2019

lord_zunami schrieb:
Ich habe ein bisschen detaillierte getestet und bin auf einen Fehler gestoßen. …

Du hast recht - wird gefixt.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat