synOCR Wie scannt ihr für synOCR?

linuxdep

Benutzer
Mitglied seit
02. Jan 2009
Beiträge
586
Punkte für Reaktionen
11
Punkte
38
Hi, wie scannt ihr eure Dokumente für synOCR ein?

Ich habe einen ScanSnap iX100, mit Win10 ein geiles Gerät, einfach, sogar PDF's mit OCR, alles fein. Aber der kann leider nicht auf ein netzlaufwerk scannen... mein MX925 von canon leider auch nicht.

Jetzt hatte ich gedacht eine Lösung mit RPi als Scanstation, damit man für jedes Familienmitglied in sein eigenes home scannen und verarbeiten lassen kann. Würde auch per Vorlagenblatt gehen.

Hat einer so was schon am Start?
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
Vielleicht kannst du mit einem 3rd Tool so bewerkstelligen, dass die Dateien, die auf deinem PC/Mac abgelegt werden, automatisch auf DS verschoben werden?
Mac - z.B. mit Hazel und Windows mit FileJuggle als Beispiel?

Ich selbst mach alles via Smartphone (Scan-App; ca. 5 Seiten pro Tag) und lade alle Dateien via WebDAV auf der DS hoch - natürlich je nach Anlass direkt in syncOCR-Input-Ordner. Bei einer hohen Anzahl an Scans (z.B. Heft, Skripten etc.) mach ich es in meinem Büro.
 

linn

Benutzer
Mitglied seit
12. Aug 2013
Beiträge
59
Punkte für Reaktionen
1
Punkte
6
Kommt ein Austausch des Scanners in Frage? Dann kann ich Brother empfehlen und nutze selbst einen Brother ADS-1700W. Dort kann man Profile hinterlegen und auch als Favoriten zur schnelleren Bedienung speichern. Jedes Profil kann ein anderes Zielverzeichnis haben und auch die Logindaten auf der Synology können je Profil unterschiedlich sein, was das Vorlagenblatt sparen könnte. Mir wäre ein LAN-Port lieber gewesen (der 1700 kann nur WLAN), aber der Aufpreis für einen ADS-2800 war mir zu groß. Wenn Du den Rest auf der Synology abbilden kannst, bräuchtest Du keinen zusätzlichen Raspi.
 

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
148
Punkte für Reaktionen
51
Punkte
34
Ich/wir scannen alle Dokumente in einen Zielordner auf dem NAS. Hier werden regelmäßig (Steuerung durch Synology alle 15 Min.) alle neuen PDFs per synOCR durchsuchbar gemacht und dann in einen weiteren Ordner verschoben. In diesem Ordner sucht dann die Applikation Organize (ebenfalls alle 15 Min. aber um 5 Min. versetzt zur OCR) nach Dokumenten und durchsucht diese nach Schlüsselwörtern. Anhand dieser Schlüsselwörter werden die Dokumente dann umbenannt und in den korrekten Zielordnern abgelegt.

Auf meinem Desktop habe ich eine Verknüpfung zum OCR-Zielordner. Hier muss ich ab und an nachsehen, welche PDFs noch nicht per Regel sortiert werden konnten

Ich nutze ebenfalls den brother ADS-1700W und wähle bereits beim Scannen per Profil aus, wohin die Dokumente gescannt werden sollen.

Alternativ kannst Du das Programm (Organize, zu finden bei GitHub) auch direkt auf dem Rechner installieren und per cronjob laufen lassen.
 

NAS-Dan

Benutzer
Contributor
Mitglied seit
19. Aug 2019
Beiträge
98
Punkte für Reaktionen
15
Punkte
8

Hallo,
Ich habe mir als Projekt auch das papierlose (private) Büro vorgenommen, und wärem deshalb diesen Thread nochmal auf. Ob ich das am Ende dauerhaft mit synOCR/ Synology Drive oder mit einer anderen Software organisiere, da bin ich mir im Moment noch nicht 100 % sicher. Im Moment frage ich mich noch, mit welchen Parametern ich scannen muss, dass synOCR oder andere OCR-Software damit klarkommt. Da sich in diesem Thread ja zumindest ein Scansnap-Nutzer rumtreibt erlaube ich mir hier diese Nachfrage, auch wenn es meine Synology NAS nur indirekt betrifft.

Ich habe mir kürzlich einen Fujitsu Scansnap S1300i zugelegt (so macht scannen Laune, eine Offenbarung im Vergleich zum Multifunktionsdrucker mit Einzug).
Was die Scan-Parameter (auch im Hinblick auf spätere OCR) angeht, so bin ich mir noch nicht sicher.

  • Auflösung (in der Scansnap Software "Bildqualität"): Die Stufe "am besten" bewirkt 300 DPI bei Farb- sowie 600 DPI bei Schwarzweiss-Scans. Ich habe anderweitig gelesen, dass 300 DPI von OCR-Software in der Regel am besten verdaut wird, 600 DPI eher zu schlechteren Ergebnissen führt. Wie sind eure Erfahrungen? Da der Scansnap die Auflösung von der Farbe abhängig macht gibt es keine Einstellung, wo immer mit 300 DPI gescannt wird. Führt das bei der OCR wegen der teils höheren Auflösung von 600 DPI zu Problemen? Wäre es dann besser, eine Stufe runter zu gehen, dann hätte ich bei Farbscans allerdings nur 200 DPI?
  • Komprimierungsrate: 5 Stufen sind möglich. Wie wirkt sich das auf die OCR-Tauglichkeit aus?
Was ich brauche ist primär eine gut fuktionierende OCR-Auswertung und sekundär die Möglichkeit, aus dem PDF einen Ausdruck zu erstellen, welcher qualitativ nahe am Original liegt. (Letzteres ist ja wohl bei 300 DPI Auflösung gegeben.

Nun noch eine scnasnap-spezifische Überlegung: Neben der Möglichkeit mit synOCR die Texterkennugn zu machen, wäre dies auch a) direkt beim Scan und b) nach dem Scan mit Abbyy Finereader möglich. Was spricht dafür, anstatt Variante a) zu wählen nachträglich synOCR zu bemhen?

Vielen Dank für die Rückmeldung.
 

Synchrotron

Benutzer
Sehr erfahren
Mitglied seit
13. Jul 2019
Beiträge
5.138
Punkte für Reaktionen
2.096
Punkte
259
Bei mir läuft der ix500. Auflösung maximal (man müsste schon ganze Bibliotheken scanne, damit das zum Problem würde), für OCR isr höhere Auflösung immer besser. Ich nutze dann gleich die integrierte Abby-Software - damit ist das OCR-Ergbenis direkt im pdf eingebettet.

Damit können alle möglichen Programme den OCR-Text lesen, incl. der Suchfunktionen der Betriebssysteme, wie Spotlight (Mac) oder UniversalSearch (DS).
 
  • Like
Reaktionen: NAS-Dan

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Ich habe hier noch keinen waschechten Dokumentenscanner.

Beim Scannen bin ich durch etwas Testen am Ende bei folgenden drei Möglichkeiten hängengeblieben:
  • 400 dpi s/w | verwendet für 90% aller Dokumente (klarer Scan, pro Seite meist nur um die 20-50kb)
  • 300 dpi Graustufen | für Sonderfälle
  • 300 dpi Farbe | für Dokumente mit Fotos und anderen farblichen Akzenten, die wichtig sind
Der Scan selber wird ohne OCR durchgeführt. Die Dokumente landen im Eingangsordner von synOCR und werden alle paar Minuten automatisch bearbeitet, getaggt und in den jeweiligen Ordner verschoben.

Zum Scannen und der Auflösung sei angemerkt:
Grundsätzlich würde ich dazu raten sich selber bei seinem Scanner ein Bild der verschiedenen Möglichkeiten zu machen, zu testen und nach dem Ergebnis auszuwählen.
 
  • Like
Reaktionen: NAS-Dan

linuxdep

Benutzer
Mitglied seit
02. Jan 2009
Beiträge
586
Punkte für Reaktionen
11
Punkte
38
Hi, ich selber habe noch nicht viel Zeit gefunden da weiter zu machen.
Na ja, die Qualität der OCR von ScanSnap würde ich doch recht hoch erwarten, aber selber verglichen habe ich noch nicht, habe noch nicht so recht gefunden, wie ich schnell an die erkannten Texte komme, geht wohl nur über C&P oder gibt es da ein tool, welches die aus dem PDF lesen kann?

Na ja, zumindest habe ich gefunden, wie man mit dem ScanSnap auch auf andere Ordner scannen kann, aber glaube da geht das die OCR nicht mehr, denn die kommt ja erst in der Software... (Link)

getetet habe ich auch VueScan, da hatte ich ja die Lizenz vom DIA scannen ist mir eingefallen. Unter Widows und Linux (leider mit GUI) läuft es, macht auch OCR (müsse man auch mal vergleichen) und wenn man mag auch eine extra txt Datei mit dem OCR Text. Schade per CLI wär super.

Hat schon mal einer Vergleiche gemacht welche OCR besser ist (ScanSnap, SynOCR oder...)?

Wozu noch Organize? Macht doch synOCR schon???
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.569
Punkte für Reaktionen
1.396
Punkte
234
aber selber verglichen habe ich noch nicht, habe noch nicht so recht gefunden, wie ich schnell an die erkannten Texte komme, geht wohl nur über C&P oder gibt es da ein tool, welches die aus dem PDF lesen kann?
/bin/pdftotext -layout "Quelldatei.pdf" "Ausgabe.txt"

pdftotext ist im DSM enthalten.
 

linuxdep

Benutzer
Mitglied seit
02. Jan 2009
Beiträge
586
Punkte für Reaktionen
11
Punkte
38
oh, super, mal testen was da so raus gekommen ist und mit ScanSnap und vuescan vergleichen.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat