synOCR synOCR - GUI für OCRmyPDF

geimist · 21. Dez. 2020

vistalba schrieb:
Schade, dann werde ich wohl um das hochkomplizierte YAML File nicht herumkommen.

Tut mir leid, aber das YAML-File ist ja schon aus dem Grund entstanden, weil Usern die Möglichkeiten in der GUI zu eingeschränkt waren. Natürlich könnte man die gesamte Konfiguration noch erweitern und auch die Vorteile der Regeldatei in die GUI bringen. Aber dazu fehlen mir die Kenntnisse. Gerade komplexe Regelgebilde in der GUI abzubilden, ist aus meiner Sicht schon eine Herausforderung.

Ich schreibe deinen Wunsch mir aber mal mit auf meine Liste (bitte nicht darauf warten). Wenn, dann wird es eine erweitere Option in der Regeldatei.

vistalba schrieb:
Nein, der läuft nicht mehr. Ist alles abgeschlossen.

Dann kann es eigentlich auch nicht von synOCR regeneriert werden.
Evtl. hängt es mit einem Synprogramm zusammen oder es liegt ein Rechteproblem vor …

geimist · 21. Dez. 2020

genki schrieb:
Ist das bekannt / inzwischen behoben? Wäre ein Grund nicht auf DSM7 umzusteigen

Natürlich ist das bekannt. Das betrifft ja alle Communitypakete, wie man auch hier im Forum lesen kann. Ich konnte das leider noch nicht erfolgreich umsetzen. Unsere Hoffnungen liegen ganz bei @voodoo44 #1252

Aber noch gibt es keinen Grund, auf DSM7 umzusteigen. Der Release dauert sicherlich noch einige Monate.

genki schrieb:
2)
Ich experimentiere mit der Synology-API und habs geschafft, Tags an Files zu hängen.

Meinst du die Kennzeichnungen in Drive?
Auch das wurde bereits in diesem Thread diskutiert. Wir haben noch keine einheitliche Lösung, d.h. derzeit sind die Tags in Drive an User gebunden. Das finde ich nicht so schön und auch schwieriger in synOCR umzusetzen (woher soll synOCR wissen, welchem User ein Tag für ein bestimmtes Dokument zugewiesen wird?).

Siehst du da eine Lösung?

vistalba · 21. Dez. 2020

geimist schrieb:
Tut mir leid, aber das YAML-File ist ja schon aus dem Grund entstanden, weil Usern die Möglichkeiten in der GUI zu eingeschränkt waren. Natürlich könnte man die gesamte Konfiguration noch erweitern und auch die Vorteile der Regeldatei in die GUI bringen. Aber dazu fehlen mir die Kenntnisse. Gerade komplexe Regelgebilde in der GUI abzubilden, ist aus meiner Sicht schon eine Herausforderung.

Ich schreibe deinen Wunsch mir aber mal mit auf meine Liste (bitte nicht darauf warten). Wenn, dann wird es eine erweitere Option in der Regeldatei.

Wie ich selbst gerade festgestellt habe ist es wirklich sehr komplex.
Und ich will mir gar nicht vorstellen, wie das ganze erst beim Programieren ist.

Eine Frage die mir noch durch den Kopf geht dazu... könnte man mehrere Prozesse bei SynOCR machen?

Input-Ordner -> synOCR (OCR erkennung & Firma1-4 erkennen -> Output-Firmen / Output-Rest.

Dann den "Output-Rest" Ordner nehmen und hier nochmal synOCR drüber laufen lassen, aber ohne OCR nur damit er noch die "general Catches" findet wie eben dann "Rechnung"?

Ps. Nein, ist klar. Ich habe auch absolut keine Mühe mit der YAMl-Datei. Das Problem ist mehr, dass mit der aktuellen Lösung die YAML unnötig kompliziert wird.

Beispiel:
Enthält "Rechnung" aber nicht "Firma1", "Firma2", "Firma3", ..., "Firma 25".

Evtl. wäre es auch eine Option einen Modus quasi "isonlymatch = true/false" zu machen. Damit könnte man z.B. auf "Rechnung" den "isonlymatch=true" setzen und er würde das dann nur berücksichtigen, wenn es der einzige match ist. Dann kann ich für alles das Rechnung enthält aber nicht im Rechnungs-Ordner landen soll eine extra Rule im YAML einfügen.
Default der Option wäre dann einfach "false" und damit würde alles beim alten bleiben.

Danke übrigens herzlich für die schnellen Antworten!

Gruss
vistalba

geimist · 21. Dez. 2020

vistalba schrieb:
Dann den "Output-Rest" Ordner nehmen und hier nochmal synOCR drüber laufen lassen, aber ohne OCR nur damit er noch die "general Catches" findet wie eben dann "Rechnung"?

Das meinte ich oben mit einem zusätzlichen Profil. Deine Idee ist gut!
Du erstellst ein Profil für deine PRIO-Dokumente. Der OUTPUT-Ordner (also wo alle nicht-PRIO-Dokumente landen) nimmst du in einem 2. Profil als INPUT-Ordner. Hier greifen dann deine Standardregeln.

Wichtig wäre in diesem Fall, dass das Profil mit den PRIO-Dokumenten zuerst abgearbeitet wird (darauf hast du keinen Einfluss - wahrscheinlich wird das zuerst erstellte Profil auch als erstes ausgeführt, da es in der Datenbanktabelle davor steht). Da die Dokumente beim 2. Durchlauf bereits OCR-Text enthalten, solltest du außerdem in deinem 2. Profil mit folgenden Parametern testen:

Code:

  -f, --force-ocr       Rasterize any text or vector objects on each page,
                        apply OCR, and save the rastered output (this rewrites
                        the PDF)
  -s, --skip-text       Skip OCR on any pages that already contain text, but
                        include the page in final output; useful for PDFs that
                        contain a mix of images, text pages, and/or previously
                        OCRed pages
  --redo-ocr            Attempt to detect and remove the hidden OCR layer from
                        files that were previously OCRed with OCRmyPDF or
                        another program. Apply OCR to text found in raster
                        images. Existing visible text objects will not be
                        changed. If there is no existing OCR, OCR will be
                        added.

synfor · 21. Dez. 2020

geimist schrieb:
Wichtig wäre in diesem Fall, dass das Profil mit den PRIO-Dokumenten zuerst abgearbeitet wird

Bei unterschiedlichen Input-Ordnern sollte das im Grunde egal sein.

geimist · 21. Dez. 2020

Wenn das 2. Profil vor dem 1. ausgeführt würde, müsste er bis zum nächsten automatischen Programmlauf warten, bis die unzutreffenden Dateien aus dem 1. Profil abgearbeitet werden. Schlimm ist das nicht, aber halt nicht nahtlos. Mit einem relativ kurz gehaltenen Intervall ist das natürlich auch zu vernachlässigen.

genki · 21. Dez. 2020

geimist schrieb:
Meinst du die Kennzeichnungen in Drive?
Auch das wurde bereits in diesem Thread diskutiert. Wir haben noch keine einheitliche Lösung, d.h. derzeit sind die Tags in Drive an User gebunden.

Dann seid ihr weiter als ich - dass Tags nur für einen User existieren war mir nicht klar. Aber es stimmt, ich habs eben ausprobiert.
Wäre für mich kein Problem, mir geht es zuerst um nur einen User. Und man könnte das an verschiedene Profile knüpfen, d.h. API-Key wird im Profil abgelegt. Trotzdem nicht optimal.

denaja · 21. Dez. 2020

@geimist: wirklich tolle Arbeit, was du hier bereit stellst.

@all:
Habe mir vor Kurzem einen Scanner gekauft und will natürlich nun auch synOCR sinnvoll einsetzen. Bin aktuell immer noch in der "Lern- und Ausprobierphase". Tatsächlich hab ich mich durch die mittlerweile 65 Seiten durchgekämpft und einiges aufgenommen. Bisher hatte ich meinen Schwerpunkt auf "Tagging" gesetzt und mit den den Möglichtkeiten der YAML-txt-Datei beschäfigt. Manuell funktioniert das schon mal ganz gut.

Nun zu meiner Frage: ich habe eine DS916+ und mal 2 - 3 pdfs mit jeweils vielleicht 5 Seiten (300dpi, max. 1.5MB) (also nicht sooo riesig) versucht automatisch zu ocr´n. Das dauert gefühlt eine Ewigkeit. Deswegen habe ich das automatische OCR´n durch synOCR bisher nicht weiter verfolgt. Ich habe nun allerdings hier gelesen, dass es Leute gibt, die eine Datei mit 150 Seiten scheinbar problemlos durchbekommen und so auch noch hunderte Dateien abarbeiten lassen. Kann ich mir bei mir gar nicht vorstellen.
Läuft da bei mir was schief. Mit welcher zeitlichen Größenordung muss ich da rechnen?

Die Frage hat folgenden Hintergrund:
Bevorzugter Workflow für mich wäre:
Scanner bekommt tägliche Eingangspost als Futter und schickt den scan an fritzbox (da 7x24h an - im Gegensatz zur DS) > 1 x nachts gescannte Dateien automatisch an synolgy geben > dort automatisch ocr´n und taggen. PC hier nicht erforderlich. 1 x wöchtentlich die autmatisch getaggten Dateien checken und ggf, manuell nacharbeiten.

Alternativer Workflow (weniger praktisch) - geht dann über ein OCR-Programm am PC: Post sammeln, 1 x pro Woche mit dem Scanner den PC füttern und dort das ocr machen lassen. Anschließend von der DS mittels synOCR das tagging machen lassen.

Bin für jegliche Hilfe oder Antwort dankbar.

geimist · 21. Dez. 2020

Hallo denaja,

eigentlich sollte es keine Ewigkeiten dauern. Auf meiner vorhergehenden DS716+ haben wenige Seiten auch nur eine bis (wenige) mehrere Minuten gebraucht (z.B. 6 Seiten in 100 Sekunden / auf einer DS920+ dauert der gesamte Ablauf bei einem Blatt teilweise unter 30 Sekunden).

Welche OCR-Parameter hast du hinterlegt?
Wie viel RAM hast du (frei)?

Gortosch · 21. Dez. 2020

geimist schrieb:
Unsere Hoffnungen liegen ganz bei @voodoo44 #1252

Aber noch gibt es keinen Grund, auf DSM7 umzusteigen. Der Release dauert sicherlich noch einige Monate.

Uhh...

hoffentlich nicht. Das DSM7 bringt m.M. nach in einigen Bereichen ganz schöne Vorteile. Gerade im Business Umfeld. Unsere großen NAS-Systeme in der Arbeite möchte ich so bald wie möglich hochziehen. (Natürlich nur wenn release)

Ja, unsere Hoffnung liegt bei voodoo44!

Grüße
Sven

denaja · 21. Dez. 2020

@geimst:
RAM: meine DS hat 8GB. Sollte also genug da sein.
OCR-Parameter: habe ich eingentlich nichts (erkennbar) dramatisches: Drehen und Entzerren überlasse ich dem Scanner, so dass nur die Sprache Deu in den OCR-Optionen hinterlegt ist. OCR-Tagging erfolgt über eine hinterlegte txt-Regeldatei. Dockerimage ist "jbarlow83/ocrmypdf:latest"; keine Suchmuster für Quelldateiname. Loglevel standard (1).

geimist · 21. Dez. 2020

Komisch …

Du kannst ja mal das Dockerimage wechseln.

Wie ist die Auslastung vom Dockercontainer synOCR während des Abarbeitens? (sollte eigentlich die CPU durchaus bis Anschlag auslasten [bei mehreren Seiten]).

Du kannst mir gerne mal ein Log hochladen (Link in meiner Signatur)

denaja · 21. Dez. 2020

wie kann ich die Auslastung checken? einfach im Ressourcenmonitor schauen?

geimist · 21. Dez. 2020

In der Docker-GUI ? Container

denaja · 21. Dez. 2020

ahhh. Danke. Ich probiers mal aus.

Vielleicht ist es gar kein Problem, sondern nur eine "individuelle Fehleinschätzung" (soll soviel heißen, dass ich mich mehr in Geduld über darf).

denaja · 21. Dez. 2020

ok - hier erster Schnelldurchlauf:
2 Dateien - Datei 1: 3 Seiten, davon erste nur wenig Text, Datei 1: 1 Seite.
Docker-Auslastung: von den 8 GB RAM kaum 1,5 GB genutzt. die CPU-Auslastung schwankt recht stark. Aber die meiste Zeit gar nciht mal bei 30-40%, selten bei 80% und nur mal kurze Momente bei >95%.

Vielleicht muss ich einfach mehr Zutrauen haben und einfach mal mit mehr loslegen..

geimist · 21. Dez. 2020

Und wie lange hat das jetzt gedauert? (steht im Logfile ganz unten)

genki · 21. Dez. 2020

Frage an die Runde: Wie sucht ihr nach OCRmyPDF Dateien?
Separate Software auf dem PC, Dokumentenverwaltung selbstgehostet, Windows search, Synology Drive search?

Ich suche etwas, das die Filestruktur beibehält aber auch tagging zulässt, idealerweise über den gesamten Bestand an Daten ohne alle Daten zu verändern. Daher fand ich das Tagging von Drive ganz interessant.

geimist · 21. Dez. 2020

Ich suche einfach via Spotlight (macOS). Mich interessiert eigentlich ziemlich wenig, wo eine Datei liegt. Über die Volltextsuche finde ich meist in Sekunden das gewünschte Dokument.

genki · 21. Dez. 2020

Danke. Ich gehe ähnlich vor, mit 'everything' / 'Wox' im ersten Schritt (wobei das die Inhalte ausspart, das mache ich weiterhin mit 'Drive' via Synology)

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat