synOCR synOCR - GUI für OCRmyPDF

DEN Schalter hab ich aber "entdeckt" und werde da mal mit testen ;)
 
  • Like
Reaktionen: geimist
Bräuchte Mal etwas Aufklärung: Mehrere Profile innerhalb synOCR würde ja jeweils einen eigenen Eingabe-Quellordner voraussetzen, richtig?

Wie macht ihr das dann, wenn ich bspw. einen Epson ES-850W habt? Mehrere Zielverzeichnisse ansteuern? Da würde die Sache etwas komplizierter machen als es eigentlich sein müsste, oder?

Ich habe auf dem Epson-Scanner schon einige "Tasten" konfiguriert, so dass ich schnell verschiedene Aktionen durchführen kann. Eine Taste scannt derzeit ins einzige vorhanden synOCR Verzeichnis, andere Schnelltasten versenden per E-Mail oder scannen in die Cloud.

Wenn ich, wie geschrieben, mehrere Profile nutzen will, würde dies unweigerlich auch weitere Schnelltasten auf dem Epson nach sich ziehen!
 
Tatsächlich würde es nicht zwangsläufig anderer Eingabe-Ordner bedeuten. Es kann aber durchaus.
Möglich wäre auch das du ein zweites Profil hast, welches den gleichen Eingabe-Ordner hat, aber z.B. die zu bearbeitenden Dateien über eine andere Kennung sucht.

Beispiel: (beide Profile gleiches Eingangs_Verzeichnis)
- Profil A sucht Dateien die "PROFILA_*.*"
- Profil B sucht Dateien die "PROFILB_*.*"
 
Zuletzt bearbeitet von einem Moderator:
  • Like
Reaktionen: Yippie und geimist
Ich habe 5 Profile.
Jedes hat seinen eigenen Input und Output.
Für den Rest wird ein und der gleiche genutzt (Backup und Log), hat den Vorteil das ich da nur eine Stelle und nicht 5 anfahren muss.
Nutze den ADS1700W von Brother und dort sind die Profile ebenso eingerichtet und über One-Klick-Schnelltaste nutzbar.
 
Nutze den ADS1700W von Brother
Der kann aber im Gegensatz zu dem Epson Scanner für jedes Profil komplett unterschiedliche Ordner ansteuern, die über das UI des Scanners festgelegt werden. Deswegen hilft das hier nicht besonders weiter.
 
Aber sofern man den Namen anpassen kann, wären ja die Präfixe, wie von @gunfran erwähnt, eine Möglichkeit. Für diesen Zweck wurden sie ja implementiert.
 
  • Like
Reaktionen: Monacum
Der kann aber im Gegensatz zu dem Epson Scanner für jedes Profil komplett unterschiedliche Ordner ansteuern, die über das UI des Scanners festgelegt werden. Deswegen hilft das hier nicht besonders weiter.
Da muss ich leider widersprechen: Der Epson kann in unterschiedlichen Zielen speichern.

Ich habe bspw. neben dem Eingangsordner von synOCR noch für jedes Haushaltsmitglied deren Home-Verzeichnis auf der Synology als mögliches Scanziel eingerichtet.

Damit kann jeder seine privaten Scans vor den Augen anderer speichern, natürlich ohne OCR.
 
Aber sofern man den Namen anpassen kann, wären ja die Präfixe, wie von @gunfran erwähnt, eine Möglichkeit. Für diesen Zweck wurden sie ja implementiert.
OK, das ist wirklich ne gute Idee. Der Epson kann tatsächlich auch mit Prefixen arbeiten und dies an jeden Dateinamen anfügen (y)
 
Guten Morgen,
würde gerne auch noch meinen Senf hinzugeben.
Jedes Profil braucht einen Eingangsordner, und das muss nicht zwangsläufig immer ein eigener sein.

Allerdings:
Die Sache mit den verschiedenen Scanner Profilen oder die Präfixe sind wenn vorhanden toll, aber wenn man mit dem Handy, aus der Cloud, dem Email Programm druckt / OCRed nicht durchgängig gleich.

Dadurch macht das Nutzen von verschiedenen Profilen, die in einen Eingangsordner speichern durchaus Sinn.
Ein Beispiel: Ein kleine Kanzlei, Ing.-Büro oder Großfamilie nutzt unterschiedlichste Quellen und Geräte zum Ablegen Ihrer Dokumente. Jeder hat genau 1 Profil in welchem dem Dokument zB. eine eindeutige Zuordnung Name, Tel.Nummer oä. gegeben wird.
Danach gehen diese Dokumente in das Hauptprofil indem sie weiter abgearbeitet werden usw. zum Schluss erfolgt die Umbenennung und Ablage ja nach Wahl.

Ich persönlich nutze seit langem folgenden Weg.
Ich nutze ua. verschiedene Scanner Profile aber auch andere Quellen wie oben genannt.
Diese speichern in den gleichen einen Eingangsordner von SynOCR.
Dort werden sie OCRed und dann wieder an unterschiedliche Profile aufgeteilt. In diesen Profilen findet dann die endgültige Umbenennung und Ablage statt. Das klingt vielleicht kompliziert, hat aber den Vorteil, dass zB. Dokumente (hier im Besonderen Rechnungen, Kontoauszüge uä.) nicht zu Problemen führen und sauber umbenannt und abgelegt werden können. Am Ende landen alle nicht zuordbaren Doks wieder im gleichen Output.

Das hat meiner Meinung nach bspw. verschiedenste Vorteile
  • Gerade Kontoauszüge oder Bank Dokus haben Ihre Tücken, wenn man mehrere Banken hat, da ja auf Ihnen stehts alle BLZ oder ähnliches stehen. Eine falsche Zuordnung zum jeweiligen Profil entfällt.
  • Die User müssen nicht kompliziert bestimmte Profile, verschiedene Ablage Ordner usw. beachten.
  • Die verschiedenen Quellen der Dokumente spielen kein Rolle mehr. Nur ein Verzeichnis oder bildlich gesprochen "nur einen Kopf drücken".
  • Das OCRen erfolgt im ersten Profil. Die nachfolgenden Profile nutzen diesen Layer, sodass die Verarbeitungszeit nur unwesentlich verlängert wird.
  • Man pflegt nur die entsprechenden Profile und muss sich um Überschneidungen und damit komplizierte Regelausschlüsse keine Gedanken mehr machen.
  • Die YAML Dateien werden wesentlich kleiner, kompakter, was die Verarbeitungszeit deutlich verringert.
  • Man sortiert geschützte PDF gleich im ersten Profil aus. Mittels meines Scriptes hier im Thread werde ich über diese informiert.
  • Alle nicht einzuordnen Doks werden im gleichen Sammelordner abgelegt, genau wie "Scan-Leichen" oder Logs. Somit muss man nicht mehr verschiedene Ordner Pflegen und durchforsten.
Das sind nur einige Beispiele. Sicherlich ist die Unterscheidung der Dokumente im ersten Profil nicht ganz leicht, aber die Vorteile überwiegen sehr deutlich.
Kombiniert man das dann noch mit meinem ersten Beispiel ganz oben, dann ergeben sich unzählige Möglichkeiten. Wirklich entscheidend für mich ist, das die YAML Dateien enorm vereinfacht werden können, und man sich dann in diesen nicht mehr um "die Verwendung von doppelten / gleichen Suchbegriffen" scheren muss.

Gruß
Karsten
 
  • Like
Reaktionen: geimist und Yippie
Wow, das sind ja Mal eine Menge an Infos und Tipps, Dankeschön!

Ich persönlich bin halt aus der Vergangenheit heraus, da ich schon gut 40 Jahre lang Programmierer bin, eher ein Freund von Konfigurationsdateien, sprich der synOCR YML-Datei, da ich dort einfach mehr machen kann.
Das ist natürlich nicht jedermanns Sache.

Ich habe nun auch meine ellenlange YML aufgeteilt in aktuell zwei Einzeldateien und dabei zwei Profile erstellt. Beide bedienen sich aber aus dem gleichen Eingangs-Vz.

Über die PostScript Anweisung werden dabei alle verarbeiteten Dateien umgehend in deren bevorzugtes Zielverzeichnis verschoben, fehlende Unterverzeichnis, bspw. mit Jahreszahl, automatisch und bei Bedarf erstellt.

Das Ablageziel, sind entweder die Home-Vz der Familienmitglieder oder das
allgemeine Haushaltverzeichnis mit dessen Unterordnern.

Wenn ich mir aber meinen aktuellen Anwendungszweck so betrachte, und wenn ich die YML Datei weiter splitte, dann werden es nicht viel mehr als vielleicht 4 bis 5 am Ende sein.

Mehr Profile zu haben, oder diese weiter auszubauen, ist mir ein wenig zu mühsam, da das synOCR GUI, sehr sehr träge ist auf meiner DS920+.
Da bin ich offengestanden froh, wenn ich ausschließlich in der YML Datei werkeln kann und nicht ins GUI wechseln muss.

Gut, laufend an den Profilen rumschrauben wird selten jemand machen, denn wenn diese Mal feststehen, dann wird sich nicht mehr viel ändern und das GUI ist Nebensache.
 
Frage in die Runde: Nutzt jemand Apprise Benachrichtigung mit WhatsApp und kann dazu Hilfestellung geben, wie dieses eingerichtet werden muss, bzw. die die URL lautet?

Es gibt ja die Anleitung hier: https://github.com/caronc/apprise/wiki/Notify_whatsapp aber ich steige schon ganz am Anfang aus.

Das Token muss ich wohl, wie bei anderen APIs auch, selbst erstellen, aber bedetuet dies ich muss mich zuerst bei WhatsApp/Meta als Entwickler registrieren um da ranzukommen?

Edit: Scheint wohl so zu sein: Facebook-Konto notwendig, na das habe ich schon vor ein paar Jahren gelöscht ;-) Damit fällt wohl WhatsApp als Nachrichtendienst weg.

Gut, wann ich diese Hürde dann geschafft und mir die WhatsApp-URL zusammengebastelt hätte, was genau versendet synOCR dann nach einem (erfolgreichen) Scan?

Edit: Dann halt ohne WhatsApp: Wenn ich mich über eine E-Mail benachrichtigen lassen will,

bBenötige ich dazu Platzhalter in der URL, um die Inhalte der Nachricht anzureichern, bspw. welches Dokument soeben verarbeitet und wie der finale Dateiname lautet oder welche Befehle ausgeführt wurden, bspw. das Ausführen von postscript?
 
Zuletzt bearbeitet:
Hallo in die Runde.

Hatte gestern plötzlich Probleme mit SynOCR: Die im Sourceordner auf dem NAS vom Scanner abgelegten Dateien wurden offensichtlich zwar erkannt und auch in den Backup-Ordner verschoben, aber die überarbeiteten Zieldateien waren nicht vorhanden. Ich hab dann mal auf das Image von Geimist umgestellt und es ging wieder.

Hab das Log angehängt. Bei Step 2 stehen ein paar ERRORS drin. Vielleicht kann die jemand erklären.

Ich lasse SynOCR zweistündlich per Aufgabenplaner laufen.

Bei der Gelegenheit eine Frage: Was ist eigentlich der Unterschied zwischen den Images von JBarlow und Geimist? Kann da bei den Ergebnissen keine großen Differenzen erkennen.

Gruß... Atze
 

Anhänge

Hab das Log angehängt. Bei Step 2 stehen ein paar ERRORS drin. Vielleicht kann die jemand erklären.
Irgendwie stolpert da Python (wohl beim Zähler der Seiten) über etwas in den PDFs. Ich hatte diese Funktion in der aktuellen Beta etwas angepasst. Das wäre mal interessant, ob es damit geht. Bzw. dass ich dem noch mal auf die Spur gehen kann. Dazu müsstest du dir die aktuelle Beta laden und wahrscheinlich auch wieder das Image zurückwechseln, wenn der Fehler nur damit auftritt.

Bei der Gelegenheit eine Frage: Was ist eigentlich der Unterschied zwischen den Images von JBarlow und Geimist?
Nur die unterstützten Sprachen. Meine Images sind 1:1 die von JBarlow83, aber mit allen Tesseract-Sprachen. Für die einheimischen User ist das also irrelevant.

bBenötige ich dazu Platzhalter in der URL, um die Inhalte der Nachricht anzureichern, bspw. welches Dokument soeben verarbeitet und wie der finale Dateiname lautet oder welche Befehle ausgeführt wurden, bspw. das Ausführen von postscript?
Es wird die Standardbenachrichtigung ausgegeben, wie sie auch im Benachrichtigungszentrum des DSM auftaucht (sofern aktiviert). Über den Schalter in der GUI kann man sich auch die Zieldatei mitschicken lassen.
 
  • Like
Reaktionen: Yippie
Danke Stephan - ich installiere mir mal die Beta und geh wieder auf das alte Image zurück. Ich werde berichten.

Gruß... Atze
 
  • Like
Reaktionen: geimist
So, mit Beta-Version und dem JBarlow-Image hats erst mit der Standard-Einstellung Schwarzweiß auf 40 geklappt. Nach der Umstellung auf 0 (also Schwarzweiß deaktiviert) klappts wieder nicht. Log-Meldung hängt dran. Muss dazu sagen, dass ein Separator-Sheet dazwischen hängt. Waren zwei Dokumente.
Wobei diesmal die Quelldatei nicht in den Backup-Ordner verschoben wurde. Lag aber möglicherweise daran, dass die dort bereits existiert.
 

Anhänge

Und jetzt auf Dein Image umgestellt mit der BETA: Läuft. Original wurde auch in den Backup-Ordner verschoben bzw. im Quellordner gelöscht, da ja schon vorhanden.
 

Anhänge

Irgendwie scheint das PDF nicht sauber von OCRmyPDF verarbeitet zu werden, was auch den Unterschied mit dem Image zeigt. Das habe ich zu diesem Fehler gefunden:

Der Fehler tritt auf, wenn pypdf (oder PyPDF2) versucht, eine PDF-Datei zu lesen, die keinen gültigen EOF-Marker (%%EOF) enthält oder beschädigt ist. Hier sind die häufigsten Ursachen und Lösungen:


Hauptursachen

  1. Beschädigte/Unvollständige PDF-Datei
    • Die Datei wurde nicht korrekt erstellt, heruntergeladen oder gespeichert (z. B. Abbruch während des Speicherns).
    • Beispiel: Eine noch nicht fertig geschriebene PDF, die vom Skript verarbeitet wird.
  2. Nicht standardkonforme PDFs
    • Manche PDF-Generatoren (v. a. ältere) fügen den EOF-Marker nicht korrekt ein.

Also habe ich da wahrscheinlich mit synOCR keinen direkten Einfluss darauf.
 
  • Like
Reaktionen: atzebonn
Das würde bedeuten, dass der Scanner (ein Epson ES-C380W) kein kompatibles PDF-Dokument erzeugt hat. Richtig?

Ich hoffe, das war nur ein Ausrutscher und kommt nicht häufiger vor.

Danke für Deine Mühe Stephan!

P.S.: Mir fällt auch gerade noch ein, dass beim ersten händischen Versuch, die nicht verarbeiteten PDFs per SynOCR zu wandeln, der Container abgestürzt ist. Das ist aber nicht mehr passiert.
 
Das würde bedeuten, dass der Scanner (ein Epson ES-C380W) kein kompatibles PDF-Dokument erzeugt hat. Richtig?
Ich denke, dass das OCR-Image etwas falsch rendert. Das Ziel-PDF ist ja eine neue Datei und die macht Probleme. Da es mit dem anderen Image geht, sehe ich darin die Ursache.

P.S.: Mir fällt auch gerade noch ein, dass beim ersten händischen Versuch, die nicht verarbeiteten PDFs per SynOCR zu wandeln, der Container abgestürzt ist. Das ist aber nicht mehr passiert.
Das kann auch am aktuellen Container-Manager liegen (Version 24.0.2). Hier gibt es oft die Meldung, dass der Container unerwartet beendet wurde, obwohl das nicht der Fall ist. Das betrifft nicht nur synOCR. Ich konnte die Ursache noch nicht genau reproduzieren, gehe aber von einem Bug im Container Manager aus.
 
  • Like
Reaktionen: atzebonn
Ich hab da zwei Regeln erstellt, die funktionieren soweit auch wunderbar, ich würde gerne aber noch was dazu machen.
Die Regeln:
Code:
rule_101:

    tagname: 2_§yocr4§mocr§docr_DL

    targetfolder: /volume1/privat/_M

    condition: all

    subrules:

    - searchstring: Drescher + Lung

      searchtyp: contains


rule_102:

    tagname: 5_§yocr4§mocr§docr_Therapie³

    targetfolder: /volume1/privat/_M

    condition: all

    subrules:

    - searchstring: Osteopathie

      searchtyp: contains

Bei beiden Dateinamen soll die Rechnungssumme noch angefügt werden.

Bei der ersten Datei sieht die Zeile so aus (Betrag kann sich natürlich ändern):
Endsumme 182,50 €

Bei der zweiten Datei sieht die Zeile so aus:
Rechnungsbetrag 2200,00 €

Dafür werde ich jeweils zwei Regeln brauchen, da fehlt mir aber noch ein bisschen Wissen um das hin zu kriegen.

Danke euch schon mal für die Hilfe

Grüße Stefan
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat