synOCR SynoOCR - weitere Komprimierung der PDF´s

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
449
Punkte für Reaktionen
8
Punkte
18
Moin Zusammen,
ich nutze schon seit Jahren das tolle Toll "SynoOCR" und bin Mega Happy damit. Allerdings würde ich gerne die PDF Dateien kleiner machen wollen. Also mehr komprimieren.

Gibt es dazu eine Einstellung in SynoOCR, die ich übersehe oder aber ein weiteres Tool welches ich vorher oder hinterher (OCR) rüberlaufen lassen kann?

Ich finde 1,6 MB für 5 DINA4 Seiten schon ziemlich viel.

Hat da jemand von euch Erfahrung?

viele Grüße

Huhie
 

w00dcu11er

Benutzer
Sehr erfahren
Mitglied seit
16. Sep 2022
Beiträge
863
Punkte für Reaktionen
298
Punkte
89
Ist aber auch eine Frage, ob Grafiken, Schriften etc. mit eingebettet wurden, was die Größe der Datei wachsen lässt.
Einige scannen immer mit 1200dpi, was bei einem amtlichen Brief (meistens S/W und ohne Grafik außer Briefkopf vl.), was ja unsinnig ist. 300dpi reichen meistens aus.

Ist mehr eine Qualitäts- als eine technische Frage.
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
449
Punkte für Reaktionen
8
Punkte
18
Moin Moin,
puh ihr seid ja fix unterwegs…

Ich habe einen HP8740 als Scanner und habe folgende
Scaneinstellungen:

300 dpi
In Farbe gescannt
Komprimierung hoch
und es gibt eine Einstellung Standardausgabe: kleine Datei

In den Scans sind ja häufig Grafiken von den entsprechenden Absendern mit
drin, dass lässt sich leider nicht vermeiden.

Ich habe nochmal ein Screenshot von meinen Scan Einstellungen beigefügt.
 

Anhänge

  • 4DF8920C-3F1B-4AA9-B4FC-FCD5B4B0B660.jpeg
    4DF8920C-3F1B-4AA9-B4FC-FCD5B4B0B660.jpeg
    130,2 KB · Aufrufe: 10

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Generell empfiehlt es sich für jeden, sich mal mit den möglichen Optionen von OCRmyPDF zu beschäftigen. Viele davon kann man in der synOCR GUI hinterlegen. Hier wird die Optimierung beschrieben: https://ocrmypdf.readthedocs.io/en/latest/optimizer.html

Wem kleine Dateien wichtig sind, dem würde ich auch empfehlen, grundsätzlich in Schwarzweiß zu scannen und nicht mehr als 300 DPI (für abweichende Fälle einfach ein ergänzendes Scanprofil nutzen). Folgende Optimierungsparameter nutze ich zusätzlich in synOCR:
--clean-final --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3

Damit habe ich hier z.B. ein fünfseitiges Dokument, welches am Ende 150KB wiegt.
 
Zuletzt bearbeitet:

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
449
Punkte für Reaktionen
8
Punkte
18
Hallo @geimist ,

meine OCR Option sieht aktuell wie folgt aus:
--author xxx --jobs 4 --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jbig2-lossy --optimize 3

Ich habe Deine Optimierungsparameter mal ergänzt. Die Dokumentation habe ich mir angeschaut. Siehst Du denn noch mehr
Komprimierungsmöglichkeiten?

Das mit dem Schwarz/Weiß scannen muss ich mir mal überlegen. Eigentlich bin ich ein Freund davon, das Papier möglichst in Farbe
abzulegen. Mal sehen. Ich werde mal ein paar Testscans machen und die Größe vergleichen.

Danke schon mal...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Das, was du in gescannten PDF siehst, ist ja lediglich ein Bild - unabhängig von OCR. Und 5 Fotos in DIN A4 Größe bekommt man halt farbig nicht auf 150KB und kann dabei noch etwas erkennen. Da musst du halt Prioritäten setzen, was dir wichtig ist. Ich habe viele reine Textdokumente (Versicherungspost ect.) wo es mir egal ist, ob ein eigentlich farbiges Logo nur noch schwarzweiß zu sehen ist. Dafür ist das PDF aber klein, was mir wichtiger ist. Probiere es mal aus. Aber wie gesagt: entscheiden musst du selbst.
 

Huhie

Benutzer
Mitglied seit
29. Nov 2007
Beiträge
449
Punkte für Reaktionen
8
Punkte
18
Gibt es denn oben an meinen Parametern noch was zu optimieren? Deine Ergänzung habe ich eingefügt.

Und ich werde mir das später mal anschauen... Schwarz/Weiß und Farbe. Der Unterschied muss dann ja enorm sein
Aber Du scannst auch in 300dpi?
 

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.159
Punkte für Reaktionen
912
Punkte
424
Denke Farbe ist mit der größte Hebel.
Ist halt ein deutlicher Unterschied ob man 1Bit (schwarz/weiß), 8Bit (256 Graustufen) oder 3*8Bit (RGB, 8 Bit pro Kanal, 16.7Mio Farben) pro Pixel speichern muss.
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.541
Punkte für Reaktionen
1.373
Punkte
234
Genau. Schwarzweiß hat eine Farbtiefe von 1Bit - weniger geht halt nicht. Der Unterschied zwischen Graustufen und Farbe fällt da weniger auf.

HIER mal ein Beispiel.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat