synOCR synOCR - GUI für OCRmyPDF

DeeKay1 · 08. Dez. 2020

In Bash bin ich halt auch kein Profi

Prinzipiell bin ich gegen das blinde Löschen von Zeilenumbrüchen. Da gibt es mit Sicherheit wieder Edge-Cases für die es jemand benötigt.
Ne Option wäre, nach Erstellung des Searchfiles nochmal über dieses drüber zu gehen und alles newlines mit etwas anderem zu ersetzen.
Aus
AAA test
ZZZ
wird danach zB: AAA test ##synocrNewline## ZZZ
Dadurch hätte man das grep-Problem mit multiline-Search umgangen, könnte aber dennoch noch nach Zeilenumbrüchen suchen, indem man nach ##synocrNewline## sucht.

Aktuell teste ich aber auch noch 1-2 andere Varianten.

EDIT:
Tatsächlich seh ich die Edge-Cases auch zur genüge bei mir. Selbst wenn ich nicht die line breaks lösche, sondern durch #synocrNewline## ersetze, funktionieren die dann nicht mehr wirklich gut. Im Moment verzichte ich dann lieber auf die Erkennung über Zeilengrenzen hinweg. Das wäre bei mir sowieso nur nice-to-have gewesen und nichts das ich zwingend bräuchte. Die Probleme, die man sich mit dem Löschen von Line Breaks bzw. deren Ersetzung, so dass alles in einer Zeile steht, ins Haus holt, sind wahrscheinlich größer als wenn man derzeit drauf verzichte.

mamema · 09. Dez. 2020

Anderer Gedankengang.... Brainstorming on, wenn Deekay Lookaheads braucht, wäre nicht auch eine logische Verknüpfung von yaml Regeln auch eine Variante? If yaml1regel enthält x und yaml2regel enthält y im nachfolgenden Text, then .....

DeeKay1 · 09. Dez. 2020

Daran hat ich auch schon gedacht. Für meinen aktuellen Use-Case aber leider nicht hilfreich.
Bei den derzeitigen Lookaheads ist mir die Reihenfolge egal, also ob Wort1 oder Wort2 zuerst kommt. Wichtig ist aber der mögliche Zeilenumbruch. Es darf einen, maximal zwei, zwischen beiden Wörtern geben. Dafür ein Ruleset zu bauen wird schwierig. Und prinzipiell ist es ja auch mit Regex schon möglich, wenn nur grep das ordentlich implementiert hätte.
Bin aktuell schon am überlegen ob man die Regex-Suche nicht in einen separaten Docker-Container auslagern könnte. Wenn der durchläuft und nicht für jede einzelne Suche gestartet/gestoppt wird, sollte das bzgl. Performance auch passen.

geimist · 09. Dez. 2020

Ich wollte schon mal deinen Docker Container mit helpertools bauen (img2pdf / Realisierung der Trennseiten und sonstige Ideen). Wenn man den für jedes Dokument starten würde, sollte das auch nicht an der Performance nagen.

Höchste Priorität hat erstmal die DSM7 Kompatibilität - da stehe ich auch noch auf den Schlauch ...

s-tyle · 10. Dez. 2020

Hallo, ich konnte das Paket einrichten, erste Probe PDF sahen sehr gut aus, auch wenn die Dateigröße doch merklich steigt. Dennoch war bis hierhin alles sehr gut zu konfigurieren, top Sache die GUI!
Ich hake noch an zwei Dingen, zum ersten Scanne ich mit einem Kombi-Gerät PDF auf einen an ner FritzBox angeschlossenen USB-Stick, der als Fritz.NAS als Netzlaufwerk zur Verfügung steht. Ich bekomme aber nicht hin, dass das Script das als Quellordner nimmt und von dort die PDF "wegarbeitet". Ziel ist eigentlich, dass das NAS (DS720+) nicht 24/7 läuft, und so kommt ein Scan direkt aufs NAS erstmal nicht so in Frage.
Ich habe versucht, direkt darauf zuzugreifen, ich habe auch versucht, das in der FileStation per Remote Ordner bereitstellen hinzubekommen. Die Dateien von der Fritz werden da angezeigt, ich kann Sie auch Öffnen, aber synOCR schert sich nicht drum. Die Datei ist nicht das Problem, diese in einen Original-auf-NAS-Ordner geschoben wird verarbeitet. Wie kann ich die Syno vom FritzNas arbeiten lassen?
Das zweite ist die Einbindung per script, ich arbeite aktuell mit dem Zeitplaner Eintrag, würde aber vermutlich gerne auf ein kürzeres Intervall. Ich habe bereits gelesen dass das per "Konsole"(?) geht, da hört es aber aktuell bei mir auf...
Wenn hier einer zu den beiden Punkten die heiße Spur hat, mein Dank gehört ihm!

geimist · 10. Dez. 2020

Herzlich willkommen hier im Forum, s-tyle,

warum das mit dem Remoteordner nicht funktioniert, verstehe ich nicht. Ich hätte gedacht, dass es genauso funktioniert.

Zu deinem anderen Problem: Das musst du nicht über die Konsole machen, sondern hier hilft dir der Aufgabenplaner in der Systemsteuerung. Das wird detailiert im Bereich "Hilfe" von synOCR beschrieben.

s-tyle · 10. Dez. 2020

Hallo, vielen Dank!
Seit nicht ganz einer Woche ist der Kasten da und ich frickel mich so durch die Einrichtung des Ganzen, davor hatte ich im Prinzip immer reine Netzlaufwerke, die all das Extra nicht konnten...
Zu 2: Blind, blöd und dreimal durcheinander gelesen. Aufgabe in Systemsteuerung/Aufgabenplaner angelegt, wird angezeigt, nächste Ausführung schiebt sich auch immer weiter, aber jetzt macht er faktisch nichts. Er soll minütlich gerade, die Datei im Quellordner liegt aber sehr unbeeindruckt... Manueller Durchlauf tut auch nichts.
SynOCR Startseite mit blauem Sanduhr Symbol, Status sagt Dateien zu bearbeiten 1. Wenn ich die aus dem Ordner lösche und aktualisiere ists grüner Haken und nichts zu tun, wieder reinkopiert wie davor beschrieben. Der Ordner ist also definitiv richtig angegeben.

Code:

PROCESSING:   ? MFC-5895CW_002818.pdf (Fri Dec 11 00:36:16 CET 2020)
                  temp. target file: /tmp/tmp.z24GQoSEzY/MFC-5895CW_002818.pdf

              ? OCRmyPDF-LOG:
               /usr/local/bin/docker: Error response from daemon: Conflict. The container name "/synOCR" is already in use by container "de1d57dac621b554d7eda6ef082d27ab1c3fa6903e40d65ed78cb8fe9d06b312". You have to remove (or rename) that container to be able to reuse that name.
               See '/usr/local/bin/docker run --help'.
              ? OCRmyPDF-LOG-END

                  ?? failed! (target file is empty or not available)

Zu 1: oder habe ich ein Verständnisproblem, in dem Ordner sind ja bereits mehrere "ältere" scans. Die müsste er doch eigentlich auch wegarbeiten mit, oder nicht?

geimist · 11. Dez. 2020

Die Fehlermeldung sagt es ja:

The container name "/synOCR" is already in use by container "de1d57dac621b554d7eda6ef082d27ab1c3fa6903e40d65ed78cb8fe9d06b312". You have to remove (or rename) that container to be able to reuse that name.

Hast du einen eigenen Container mit Namen synOCR angelegt? Das ist nicht vorgesehen …
Gehe mal bitte in die Docker-GUI > Container und lösche den Container "synOCR"

s-tyle · 12. Dez. 2020

Ich habe keine Container angelegt... Warum auch immer hat es jetzt aber auch funktioniert, manuell in den (lokalen) SRC Ordner gelegte PDF über den Aufgabenplaner gesteuert abarbeiten zu lassen. Wenn eine PDF reingelegt wird erscheint vorübergehend ein zusätzlicher Container synOCR, verschwindet aber danach auch wieder von selbst. Ich glaube, so sollte es auch sein...

Wenn es so bleibt, bleibt für mich nur noch die Aufgabe, die Syno ebenso regelmäßig wie das SRC Verzeichnis betrachtet wird, vom FritzNas die neuen PDF in den SRC Ordner zu schieben...
Ich habe aktuell den als Netzlaufwerk verfügbaren Ordner von der Fritz über den FileManager Extras/Remote-Ordner bereitstellen/Freigegebener CIFS-Ordner in den lokalen SRC Ordner "bereitgestellt", der mit o.g. Weg funktioniert. synOCR zeigt in der Übersicht/Status jetzt auch 195 Dateien zu bearbeiten an, damit passiert aber nichts...

geimist · 12. Dez. 2020

s-tyle schrieb:
Wenn eine PDF reingelegt wird erscheint vorübergehend ein zusätzlicher Container synOCR, verschwindet aber danach auch wieder von selbst. Ich glaube, so sollte es auch sein...

Richtig - so soll es sein. Der Polyglot-Container wurde auch von dir angelegt. Falls du den nicht für etwas anderes brauchst, kannst du den auch löschen.

s-tyle schrieb:
synOCR zeigt in der Übersicht/Status jetzt auch 195 Dateien zu bearbeiten an, damit passiert aber nichts...

Dazu habe ich noch keine Idee. Ggf. müsste man die Dateien mit einem kleinen zusätzlichen Skript in deinen Quellordner verschieben. Mich würde mal interessieren, was das Log dazu sagt. Das kannst du mir hier privat hochladen.

s-tyle · 12. Dez. 2020

Uuund gelöscht.
Das Log der letzten erfolgreichen Umwandlung ist hochgeladen. Danach gibt es kein log...Er scheint also zwar eine Anzahl Dateien zu erkennen, aber gar nicht damit einen Durchlauf zu starten, der einen log schreiben würde...
Schicke Upload version, wo kann ich sowas bauen?

Nochmal danke für die schnellen Antworten.

geimist · 12. Dez. 2020

Hast du evtl. mehrere Profile angelegt und z.T. nicht aktiviert?

s-tyle schrieb:
Schicke Upload version, wo kann ich sowas bauen?

FileStation ? Rechtsklick auf Ordner ? Dateianforderung erstellen

Gortosch · 12. Dez. 2020

Ohje und Hallo,
ich glaube ich habe Mist gebaut. Ich nutze syncocr schon seit längerem und bin super zufrieden. Danke.
Aber ich bin auch ein neugieriger Mensch und habe auf 7.0 aktualisiert. Nach dem Update sagt mir der Paketmanager, dass er syncocr reparieren müsste. Doch das klappt nicht:

Kann man mir irgendwie helfen oder ist es zwecklos?

Danke.

Schöne Grüße
Sven

geimist · 12. Dez. 2020

Ja, das ist schlecht für dich. Ich habe noch keine Lösung für eine Anpassung.

Sorry …

Gortosch · 12. Dez. 2020

Kein Ding, ich bin mir sicher du bekommst das hin.

Danke.

mamema · 12. Dez. 2020

Hier mal kein Problem, sondern eine Lösung. EDV ist ja die Lösung von Problemen die man ohne sie gar nicht hätte....

Evtl. für die Hardcore PDF OCR Nerds hier relevant....

Ich suchte und bastelte schon länger an etwas, welches mir die Fragestellung: "zeig mir alle PDFs in Pfad x an, welche noch kein OCR haben."

Hatte hierzu zuerst ein Script und die Opensource pdffonts - Hat das PDF keine Fonts, sind es Bilder, also kein OCR.
War aber langsam und Gefrickel....

Nun habe ich eine, doch einfache und bedienungsfreundliche Lösung:

- Total Commander - Shareware mit erträglichem Nagscreen. Das Swiss Army Knife der Dateiverwaltung
- Dazu das Plugin xPDFSearch

Sucht man nun mit Hilfe des Plugins nach PDFs die KEIN Leerzeichen enthalten, entsteht eine Liste der PDFs ohne OCR

Die Liste kann dann je nach Workflow weiterverarbeitet/verwurstet werden.

s-tyle · 12. Dez. 2020

geimist schrieb:
Hast du evtl. mehrere Profile angelegt und z.T. nicht aktiviert?

Ich hatte mal versucht, ein zweites Profil anzulegen, das jedoch gelöscht. Das Profile Dropdown zeigt auch nur den Eintrag "default" an. Dieser ist unter Allgemein auch auf "Profil aktiviert".
(Evtl. ne Idee für zukünftige Updates: Unter Übersicht/Statistik vor "Offene Aufgaben" noch "Aktive Profile" anzeigen.)
Zum Abgleich mal kurz: oben links Fritz NAS, unten links der Remote-Ordner (SRC) unter Win. Rechts unten der SRC-Ordner in der Synology-Ansicht, der Systemsteuerung/Aufgabenplaner Task und die synOCR Übersicht. Ich stehe auf dem Schlauch leider...

Wenn ich "jetzt manuellen synOCR Durchlauf starten" klicker, kommt übrigens der Hinweis, dass synOCR bereits läuft, falls das was hilft...

geimist · 12. Dez. 2020

s-tyle schrieb:
Wenn ich "jetzt manuellen synOCR Durchlauf starten" klicker, kommt übrigens der Hinweis, dass synOCR bereits läuft, falls das was hilft...

aha
Wenn du das Gefühl hast, dass synOCR hängt, dann mal "beenden" versuchen - ggf. mal die DS neustarten.

s-tyle · 12. Dez. 2020

Beenden und dann manuell starten führt zum Todeskreisel... "Bitte warten, bis die Dateien abgearbeitet wurden." Nach 20 Minuten ist aber keine einzige im Zielordner angekommen...

geimist · 12. Dez. 2020

Ich kann jetzt nicht sagen, wo der Schuh drückt.
Evtl. hängt es am eingehängten Remoteordner …

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat