synOCR synOCR - GUI für OCRmyPDF

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
In Bash bin ich halt auch kein Profi :D
Prinzipiell bin ich gegen das blinde Löschen von Zeilenumbrüchen. Da gibt es mit Sicherheit wieder Edge-Cases für die es jemand benötigt.
Ne Option wäre, nach Erstellung des Searchfiles nochmal über dieses drüber zu gehen und alles newlines mit etwas anderem zu ersetzen.
Aus
AAA test
ZZZ
wird danach zB: AAA test ##synocrNewline## ZZZ
Dadurch hätte man das grep-Problem mit multiline-Search umgangen, könnte aber dennoch noch nach Zeilenumbrüchen suchen, indem man nach ##synocrNewline## sucht.

Aktuell teste ich aber auch noch 1-2 andere Varianten.

EDIT:
Tatsächlich seh ich die Edge-Cases auch zur genüge bei mir. Selbst wenn ich nicht die line breaks lösche, sondern durch #synocrNewline## ersetze, funktionieren die dann nicht mehr wirklich gut. Im Moment verzichte ich dann lieber auf die Erkennung über Zeilengrenzen hinweg. Das wäre bei mir sowieso nur nice-to-have gewesen und nichts das ich zwingend bräuchte. Die Probleme, die man sich mit dem Löschen von Line Breaks bzw. deren Ersetzung, so dass alles in einer Zeile steht, ins Haus holt, sind wahrscheinlich größer als wenn man derzeit drauf verzichte.
 
Zuletzt bearbeitet:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Anderer Gedankengang.... Brainstorming on, wenn Deekay Lookaheads braucht, wäre nicht auch eine logische Verknüpfung von yaml Regeln auch eine Variante? If yaml1regel enthält x und yaml2regel enthält y im nachfolgenden Text, then .....
 

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
100
Punkte für Reaktionen
23
Punkte
24
Daran hat ich auch schon gedacht. Für meinen aktuellen Use-Case aber leider nicht hilfreich.
Bei den derzeitigen Lookaheads ist mir die Reihenfolge egal, also ob Wort1 oder Wort2 zuerst kommt. Wichtig ist aber der mögliche Zeilenumbruch. Es darf einen, maximal zwei, zwischen beiden Wörtern geben. Dafür ein Ruleset zu bauen wird schwierig. Und prinzipiell ist es ja auch mit Regex schon möglich, wenn nur grep das ordentlich implementiert hätte.
Bin aktuell schon am überlegen ob man die Regex-Suche nicht in einen separaten Docker-Container auslagern könnte. Wenn der durchläuft und nicht für jede einzelne Suche gestartet/gestoppt wird, sollte das bzgl. Performance auch passen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Ich wollte schon mal deinen Docker Container mit helpertools bauen (img2pdf / Realisierung der Trennseiten und sonstige Ideen). Wenn man den für jedes Dokument starten würde, sollte das auch nicht an der Performance nagen.

Höchste Priorität hat erstmal die DSM7 Kompatibilität - da stehe ich auch noch auf den Schlauch ...
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Hallo, ich konnte das Paket einrichten, erste Probe PDF sahen sehr gut aus, auch wenn die Dateigröße doch merklich steigt. Dennoch war bis hierhin alles sehr gut zu konfigurieren, top Sache die GUI!
Ich hake noch an zwei Dingen, zum ersten Scanne ich mit einem Kombi-Gerät PDF auf einen an ner FritzBox angeschlossenen USB-Stick, der als Fritz.NAS als Netzlaufwerk zur Verfügung steht. Ich bekomme aber nicht hin, dass das Script das als Quellordner nimmt und von dort die PDF "wegarbeitet". Ziel ist eigentlich, dass das NAS (DS720+) nicht 24/7 läuft, und so kommt ein Scan direkt aufs NAS erstmal nicht so in Frage.
Ich habe versucht, direkt darauf zuzugreifen, ich habe auch versucht, das in der FileStation per Remote Ordner bereitstellen hinzubekommen. Die Dateien von der Fritz werden da angezeigt, ich kann Sie auch Öffnen, aber synOCR schert sich nicht drum. Die Datei ist nicht das Problem, diese in einen Original-auf-NAS-Ordner geschoben wird verarbeitet. Wie kann ich die Syno vom FritzNas arbeiten lassen?
Das zweite ist die Einbindung per script, ich arbeite aktuell mit dem Zeitplaner Eintrag, würde aber vermutlich gerne auf ein kürzeres Intervall. Ich habe bereits gelesen dass das per "Konsole"(?) geht, da hört es aber aktuell bei mir auf...
Wenn hier einer zu den beiden Punkten die heiße Spur hat, mein Dank gehört ihm!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Herzlich willkommen hier im Forum, s-tyle,

warum das mit dem Remoteordner nicht funktioniert, verstehe ich nicht. Ich hätte gedacht, dass es genauso funktioniert.

Zu deinem anderen Problem: Das musst du nicht über die Konsole machen, sondern hier hilft dir der Aufgabenplaner in der Systemsteuerung. Das wird detailiert im Bereich "Hilfe" von synOCR beschrieben.
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Hallo, vielen Dank!
Seit nicht ganz einer Woche ist der Kasten da und ich frickel mich so durch die Einrichtung des Ganzen, davor hatte ich im Prinzip immer reine Netzlaufwerke, die all das Extra nicht konnten...
Zu 2: Blind, blöd und dreimal durcheinander gelesen. Aufgabe in Systemsteuerung/Aufgabenplaner angelegt, wird angezeigt, nächste Ausführung schiebt sich auch immer weiter, aber jetzt macht er faktisch nichts. Er soll minütlich gerade, die Datei im Quellordner liegt aber sehr unbeeindruckt... Manueller Durchlauf tut auch nichts.
SynOCR Startseite mit blauem Sanduhr Symbol, Status sagt Dateien zu bearbeiten 1. Wenn ich die aus dem Ordner lösche und aktualisiere ists grüner Haken und nichts zu tun, wieder reinkopiert wie davor beschrieben. Der Ordner ist also definitiv richtig angegeben.
Code:
PROCESSING:   ? MFC-5895CW_002818.pdf (Fri Dec 11 00:36:16 CET 2020)
                  temp. target file: /tmp/tmp.z24GQoSEzY/MFC-5895CW_002818.pdf

              ? OCRmyPDF-LOG:
               /usr/local/bin/docker: Error response from daemon: Conflict. The container name "/synOCR" is already in use by container "de1d57dac621b554d7eda6ef082d27ab1c3fa6903e40d65ed78cb8fe9d06b312". You have to remove (or rename) that container to be able to reuse that name.
               See '/usr/local/bin/docker run --help'.
              ? OCRmyPDF-LOG-END

                  ?? failed! (target file is empty or not available)
Zu 1: oder habe ich ein Verständnisproblem, in dem Ordner sind ja bereits mehrere "ältere" scans. Die müsste er doch eigentlich auch wegarbeiten mit, oder nicht?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Die Fehlermeldung sagt es ja:
The container name "/synOCR" is already in use by container "de1d57dac621b554d7eda6ef082d27ab1c3fa6903e40d65ed78cb8fe9d06b312". You have to remove (or rename) that container to be able to reuse that name.

Hast du einen eigenen Container mit Namen synOCR angelegt? Das ist nicht vorgesehen …
Gehe mal bitte in die Docker-GUI > Container und lösche den Container "synOCR"
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
1607773102313.png
Ich habe keine Container angelegt... Warum auch immer hat es jetzt aber auch funktioniert, manuell in den (lokalen) SRC Ordner gelegte PDF über den Aufgabenplaner gesteuert abarbeiten zu lassen. Wenn eine PDF reingelegt wird erscheint vorübergehend ein zusätzlicher Container synOCR, verschwindet aber danach auch wieder von selbst. Ich glaube, so sollte es auch sein...
1607776116862.png
Wenn es so bleibt, bleibt für mich nur noch die Aufgabe, die Syno ebenso regelmäßig wie das SRC Verzeichnis betrachtet wird, vom FritzNas die neuen PDF in den SRC Ordner zu schieben...
Ich habe aktuell den als Netzlaufwerk verfügbaren Ordner von der Fritz über den FileManager Extras/Remote-Ordner bereitstellen/Freigegebener CIFS-Ordner in den lokalen SRC Ordner "bereitgestellt", der mit o.g. Weg funktioniert. synOCR zeigt in der Übersicht/Status jetzt auch 195 Dateien zu bearbeiten an, damit passiert aber nichts...
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Wenn eine PDF reingelegt wird erscheint vorübergehend ein zusätzlicher Container synOCR, verschwindet aber danach auch wieder von selbst. Ich glaube, so sollte es auch sein...
Richtig - so soll es sein. Der Polyglot-Container wurde auch von dir angelegt. Falls du den nicht für etwas anderes brauchst, kannst du den auch löschen.
synOCR zeigt in der Übersicht/Status jetzt auch 195 Dateien zu bearbeiten an, damit passiert aber nichts...
Dazu habe ich noch keine Idee. Ggf. müsste man die Dateien mit einem kleinen zusätzlichen Skript in deinen Quellordner verschieben. Mich würde mal interessieren, was das Log dazu sagt. Das kannst du mir hier privat hochladen.
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Uuund gelöscht.
Das Log der letzten erfolgreichen Umwandlung ist hochgeladen. Danach gibt es kein log...Er scheint also zwar eine Anzahl Dateien zu erkennen, aber gar nicht damit einen Durchlauf zu starten, der einen log schreiben würde...
Schicke Upload version, wo kann ich sowas bauen?

Nochmal danke für die schnellen Antworten.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Hast du evtl. mehrere Profile angelegt und z.T. nicht aktiviert?

Schicke Upload version, wo kann ich sowas bauen?
FileStation ? Rechtsklick auf Ordner ? Dateianforderung erstellen
 

Gortosch

Benutzer
Mitglied seit
04. Apr 2020
Beiträge
21
Punkte für Reaktionen
1
Punkte
3
Ohje und Hallo,
ich glaube ich habe Mist gebaut. Ich nutze syncocr schon seit längerem und bin super zufrieden. Danke.
Aber ich bin auch ein neugieriger Mensch und habe auf 7.0 aktualisiert. Nach dem Update sagt mir der Paketmanager, dass er syncocr reparieren müsste. Doch das klappt nicht:

Screenshot 2020-12-12 144956.png
Kann man mir irgendwie helfen oder ist es zwecklos?

Danke.

Schöne Grüße
Sven
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Hier mal kein Problem, sondern eine Lösung. EDV ist ja die Lösung von Problemen die man ohne sie gar nicht hätte....

Evtl. für die Hardcore PDF OCR Nerds hier relevant....

Ich suchte und bastelte schon länger an etwas, welches mir die Fragestellung: "zeig mir alle PDFs in Pfad x an, welche noch kein OCR haben."

Hatte hierzu zuerst ein Script und die Opensource pdffonts - Hat das PDF keine Fonts, sind es Bilder, also kein OCR.
War aber langsam und Gefrickel....

Nun habe ich eine, doch einfache und bedienungsfreundliche Lösung:

- Total Commander - Shareware mit erträglichem Nagscreen. Das Swiss Army Knife der Dateiverwaltung
- Dazu das Plugin xPDFSearch

Sucht man nun mit Hilfe des Plugins nach PDFs die KEIN Leerzeichen enthalten, entsteht eine Liste der PDFs ohne OCR

Die Liste kann dann je nach Workflow weiterverarbeitet/verwurstet werden.
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Hast du evtl. mehrere Profile angelegt und z.T. nicht aktiviert?
Ich hatte mal versucht, ein zweites Profil anzulegen, das jedoch gelöscht. Das Profile Dropdown zeigt auch nur den Eintrag "default" an. Dieser ist unter Allgemein auch auf "Profil aktiviert".
(Evtl. ne Idee für zukünftige Updates: Unter Übersicht/Statistik vor "Offene Aufgaben" noch "Aktive Profile" anzeigen.)
Zum Abgleich mal kurz: oben links Fritz NAS, unten links der Remote-Ordner (SRC) unter Win. Rechts unten der SRC-Ordner in der Synology-Ansicht, der Systemsteuerung/Aufgabenplaner Task und die synOCR Übersicht. Ich stehe auf dem Schlauch leider...
1607792201258.png
Wenn ich "jetzt manuellen synOCR Durchlauf starten" klicker, kommt übrigens der Hinweis, dass synOCR bereits läuft, falls das was hilft...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.505
Punkte für Reaktionen
1.343
Punkte
234
Wenn ich "jetzt manuellen synOCR Durchlauf starten" klicker, kommt übrigens der Hinweis, dass synOCR bereits läuft, falls das was hilft...
aha
Wenn du das Gefühl hast, dass synOCR hängt, dann mal "beenden" versuchen - ggf. mal die DS neustarten.
 

s-tyle

Benutzer
Mitglied seit
30. Nov 2020
Beiträge
28
Punkte für Reaktionen
3
Punkte
3
Beenden und dann manuell starten führt zum Todeskreisel... "Bitte warten, bis die Dateien abgearbeitet wurden." Nach 20 Minuten ist aber keine einzige im Zielordner angekommen...
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat