synOCR synOCR - GUI für OCRmyPDF

essteebee

Benutzer
Mitglied seit
15. Mrz 2019
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Test 2:
1 Seite DIN A4
600dpi Farbe
1660kb

Ausgabe:
--optimize 0 => 1348kb
--optimize 1 => 1348kb
--optimize 2 => 1243kb
--optimize 3 => 1047kb

Gleiches Ergebnis bei mir mit 300 DPI Farbe: optimize 0 und optimize 1 sind gleich groß, etwas kleiner als das Original und beide "lossy"...
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
optimize 0 und optimize 1 sind gleich groß

Ich habe den Test mal etwas umfangreicher gemacht. Meine Testreihe umfasste nun 14 (willkürlich ausgewählte) PDF-Dokumente (001 bis 014), die allesamt grau oder schwarz-weiß sind.

Rich (BBCode):
001 Original   => 150 kb
001 Optimize 0 => 135 kb
001 Optimize 1 => 135 kb

002 Original   => 34 kb
002 Optimize 0 => 44 kb
002 Optimize 1 => 36 kb

003 Original   => 90 kb
003 Optimize 0 => 102 kb
003 Optimize 1 => 74 kb

004 Original   => 96 kb
004 Optimize 0 => 99 kb
004 Optimize 1 => 99 kb

005 Original   => 38 kb
005 Optimize 0 => 48 kb
005 Optimize 1 => 39 kb

006 Original   => 56 kb
006 Optimize 0 => 66 kb
006 Optimize 1 => 47 kb

007 Original   => 68 kb
007 Optimize 0 => 80 kb
007 Optimize 1 => 61 kb

008 Original   => 229 kb
008 Optimize 0 => 244 kb
008 Optimize 1 => 160 kb

009 Original   => 72 kb
009 Optimize 0 => 85 kb
009 Optimize 1 => 64 kb

010 Original   => 228 kb
010 Optimize 0 => 244 kb
010 Optimize 1 => 166 kb

011 Original   => 50 kb
011 Optimize 0 => 60 kb
011 Optimize 1 => 47 kb

012 Original   => 93 kb
012 Optimize 0 => 105 kb
012 Optimize 1 => 83 kb

013 Original   => 132 kb
013 Optimize 0 => 147 kb
013 Optimize 1 => 108 kb

014 Original   => 26 kb
014 Optimize 0 => 33 kb
014 Optimize 1 => 26 kb
Fazit:
Es gibt einen Unterschied zwischen Optimize 0 und Optimize 1.
Dokumente, die mit "--optimize 0" bearbeitet werden, sind teilweise sogar etwas größer als der Originalscan, wiederum Dokumente, die mit "--optimize 1" bearbeitet werden, sind eher kleiner als der Originalscan.

Gute Nacht! :)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.543
Punkte für Reaktionen
1.373
Punkte
234
… Bei mir funktioniert alles gut, nur scheint bei mir der Parameter --optimize keine Wirkung zu haben:
- ohne Angabe des Parameters: Original: 2.283 KB --> OCR: 1.469 KB, dabei aber deutliche Artefakte durch Komprimierung zu erkennen wenn ich auf 600% zoome

habe ich da einen Denkfehler?

Hallo essteebee,

Denkfehler sehe ich hier keinen, aber mit synOCR habe ich auch keinen wirklichen Einfluss darauf - ist ja nur 'ne GUI. Dass der Parameter korrekt übergeben wird, siehst du ja an den Unterschieden der Ausgabe. Gibt es evtl. Hinweise im LOG (im Bereich OCRmyPDF)?
Wenn du da ein Problem siehst, kannst du mal direkt beim Entwickler von OCRmyPDF auf GitHub nachfragen.
Die Dokumentation kennst du ja wahrscheinlich schon.


… Wenn keine Angabe erfolgt, scheint --optimize 1 der Standard zu sein …

Das ist korrekt.
 

essteebee

Benutzer
Mitglied seit
15. Mrz 2019
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Nach ein paar Stunden weiterer Versuche direkt auf der Kommandozeile von OCRmyPDF habe ich die Ursache gefunden:

Die Option -deskew hat zur Folge, dass die Bilder komprimiert werden und Artefakte entstehen. Wenn ich sie weg lasse sieht die PDF 100% wie das Original aus.

Optimize 0 und 1 hatten keinen Effekt weil ich eine optimize-ratio von 1.0 hatte und damit 0 % "Einsparung".

Folglich sehe ich für mich folgende Optionen
1. deskew weglassen --> hat eine etwas geringere OCR-Qualität zur Folge aber PDF wird nicht unnötig komprimiert
2. deskew lassen --> bessere OCR-Qualität aber Komprimierung mit Artefakten
3. deskew lassen und "oversample -600" --> PDF sieht annähernd gleich aus und OCR-Qualität ist gut, die Dateien aber auch merklich größer (ungefähr Faktor 2)

Ich werde erstmal mit Variante 1 weiter machen, der Gewinn an OCR-Qualität rechtfertigt nicht die anderen Nachteile von 2. bzw. 3.
 
Zuletzt bearbeitet:

cutzenfreund

Benutzer
Mitglied seit
31. Dez 2013
Beiträge
21
Punkte für Reaktionen
0
Punkte
0
Hey @geimist
ich habe das Problem gefunden!

Ich war die letzte Woche unterwegs und habe DSM immer über die extern erreichbare URL aufgerufen (mit https). Dort tritt das Problem weiterhin auf. Seit heute bin ich wieder zuhause. Rufe ich DSM über die internet Netzwerk IP auf (egal ob mit oder ohne https) geht alles.

Andere Apps haben damit keine Probleme. Eventuell gibt es da einen Bug?

Darum gehts: https://www.synology-forum.de/showt...I-für-OCRmyPDF&p=817299&viewfull=1#post817299
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.543
Punkte für Reaktionen
1.373
Punkte
234
Ich denke, es ist das gleiche Problem wie bei TeXniXo. Bitte teste mal, ob diese Lösung hilft.
 

arphex

Benutzer
Mitglied seit
17. Nov 2011
Beiträge
171
Punkte für Reaktionen
0
Punkte
22

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
Ja, genau - Mauer um das Projekt und es ist sicher und bugfree :)

Also das mit "Browser-Kompatibilität" ist in der Tat die "universelle" Lösung ... so wie es scheint, rennt es bis dato ohne Probleme. Danke jedenfalls für den Hinweis! :)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.543
Punkte für Reaktionen
1.373
Punkte
234
synOCR v0.15.0

IMPLEMENTIERUNGEN:
  • Die Konfiguration wurde von einer Textdatei auf eine Datenbank umgestellt. So lassen sich jetzt beliebige Profile verwalten.
    (in Verbindung mit individuellen Such-Präfixen kann man so z.B. einen gemeinsamen Input-Ordner, aber individuelle Ausgabeordner mit individuellen Tags nutzen)
  • Übersichts- und Statusseite zusammengeführt
  • INFO: Das Textfeld für die Tags ist zwar jetzt mehrzeilig, es dürfen aber derzeit keine Zeilenumbrüche verwendet werden!
  • Detailverbesserungen in der GUI
 

reiki

Benutzer
Mitglied seit
16. Mai 2012
Beiträge
355
Punkte für Reaktionen
7
Punkte
18
Danke, Stephan, für deine engagierte Fortentwicklung von synOCR.:)
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
synOCR v0.15.0
...

hab Dein Tool heute Abend entdeckt. Dachte... oje ob das funktioniert, was wird das für ein gebastel.... 180 Sekunden später lief das Ding. Super Sache! Einfach toll!
Danke sehr.
 
Zuletzt bearbeitet von einem Moderator:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
könnte mir mal jemand (gern mehrere :), welche synocr sehr umfangreich nutzen, ihr TAG Feld hier rein pasten. Ich suche noch Denkanstösse nach dem Motto: Aha, genau.... oder Aha, daran hab ich noch gar nicht gedacht. Danke im Voraus.
 

lord_zunami

Benutzer
Mitglied seit
15. Feb 2019
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Ich habe ein bisschen detaillierte getestet und bin auf einen Fehler gestoßen.
Tags, Zielordner nach Kategorie zuordnen und nach Tagnamen umbenennen

Beispiel 1:
zu suchende Tags: User1;User2;User3;Arzt1=Zahnarzt;Arzt2=Kinderarzt
Suchbereich für Tags: nur erste Seite + Ziel-PDF in Kategorieordner einsortieren
OCR Rename-Syntax: §y-§m-§d §tag
Ergebnis:
OK Der Ziel-PDF Ordner wird erstellt zB Zahnarzt
OK Dateien wurden unbenannt und in Kategorie hinterlegt OUTBOX\Zahnarzt\2019-01-01 #User2 #Arzt1.pdf
FEHLER diese Dateie wurde dann doppelt in OUTBOX\scan dateiname.pdf hinterlegt
OK Dateien die keine Kategorie haben OUTBOX\2019-01-01 #User1.pdf

Beispiel 2:
zu suchende Tags: User1;User2;User3;Arzt1=Zahnarzt;Arzt2=Kinderarzt
Suchbereich für Tags: nur erste Seite + Ziel-PDF in Tagordner einsortieren
OCR Rename-Syntax: §y-§m-§d §tag
Ergebnis:
OK Der Ziel-PDF Ordner wird erstellt zB User1
OK Dateien wurden unbenannt und in Kategorie hinterlegt OUTBOX\User2\2019-01-01 #User2 #Arzt1.pdf
OK Dateien die keine Tag haben OUTBOX\2019-01-01.pdf
 

Cyberbob19

Benutzer
Mitglied seit
05. Mai 2011
Beiträge
231
Punkte für Reaktionen
0
Punkte
22
Hallo,

@geimist: Dein Tool setze ich nun seit einigen Wochen ein und was soll ich sagen... SUPER ARBEIT! Vielen Dank!

P.S. Den Donate Button in der Hilfe habe ich gefunden und auch direkt einmal genutzt.

Gruß
Bob
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.543
Punkte für Reaktionen
1.373
Punkte
234


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat