synOCR synOCR - GUI für OCRmyPDF

fraedshi · 29. Nov. 2021

Moin, bitte verweist mich auf den richtigen Thread falls mein Post hier fehl am Platze sein sollte, aber beim Versuch, synocr 1.1.902 auf einer DS416play mit 8GB Ram zu installieren bin ich gescheitert. Dort läuft DSM 6.2.4-25556 Update 2, auf DSM 7 will ich wegen (mir) unklarer Kompatibilität mit VMM und Docker erstmal nicht updaten.
Gibt es irgendwo ein Repository mit historischen Versionen von synocr, auf cphub hatte ich die Funktionalität bislang nicht entdeckt.
Besten Dank im Voraus!

geimist · 29. Nov. 2021

Dann nimm das offizielle Release - Version 1.1.2. Zu finden auf cphub oder von meinem Server.

PS:
läuft auf der DS416play überhaupt Docker?

peterhoffmann · 29. Nov. 2021

geimist schrieb:
auf der DS416play überhaupt Docker?

Ja, über manuelle Installation, wie ich mal gelesen habe.

fraedshi · 30. Nov. 2021

@geimist YMMD! Danke für den Link zu Deinem Server! Auf cphub finde ich ältere Versionen nicht bräuchte es dafür nen Login oder liegts an mir?
Manuell installiert, laufen auf der 416play Docker und VMM problemlos. Die CPU reißt nix groß, für meine Zwecke reichts aber locker. Meine hat 8GB RAM, die 2GB der Serie reichen nicht.

geimist · 30. Nov. 2021

fraedshi schrieb:
Auf cphub finde ich ältere Versionen nicht bräuchte es dafür nen Login oder liegts an mir?

Leider funktioniert derzeit die Verteilung von synOCR über cphub in die Paketzentren nicht richtig. Darauf habe ich keinen Einfluss. Direkt auf der Website findest du aber auch das aktuelle Release: https://www.cphub.net/?p=synocr

fraedshi · 30. Nov. 2021

Jup, und das flutscht auch schon, vielen Dank!

mamema · 30. Nov. 2021

Stephan, sorry, wenn dass auf den vorherigen 104 Seiten schon steht (sicher!), aber was macht OCRmyPDF mit PDFs, welche schon OCRed wurden?

- gar nix?
- YAML abarbeiten und in Verzeichnisse sortieren?
- nochmal OCR scannen?

geimist · 30. Nov. 2021

Die werden ganz normal an OCRmyPDF übergeben.
Als Standard ist ja der Parameter -s gesetzt (= skip text). Die PDFs werden dann also bzgl. OCR übersprungen. Alles Weitere passiert wie gewohnt. Mit dem Parameter -f (= force) kannst du ein erneutes ocren erzwingen.

jhess · 02. Dez. 2021

Hallo allerseits!

Seit ein paar Tagen habe ich das DSM7-Paket für SynOCR auf meienr Station installiert.

Bisher einige Experimente und Tests und ich bin begeistert!

@geimist: Ganz herzlichen Dank dafür, dass Du das entwickelst und hier soviel schreibst!

Vielleicht kann mir jemand hierbei helfen, - ich verstehe ein zwei Dinge nicht so ganz:

Ich habe versucht in der Konfiguration mit "-srd -l deu+eng" das deutsche und das englische Vokabular zu nutzen.

Es stehen mir dazu zwei Docker-Images zur Verfügung:

- einmal von "jbarlow83" (latest) und
- ein "polyglott" von "geimist" (latest)

Nun frage ich mich,

a) Welches ist das richtige Image, um OCR auf deutsch und englisch durchzuführen?

b) Kann ich den anderen Docker-Container dann löschen?

c) Was mache ich bei der Konfiguration falsch - "-srd -l deu+eng" führt dazu, dass die PDFs nicht verschoben werden (und soweit ich das sehe auch nicht wird auch keine DSM-Benachrichtigung erstellt...)

Im Log steht: "WARNING: Error loading config file: .dockercfg: $HOME is not defined" - ich habe hier aber gelesen, dass man das ignorieren kann?

Laut ocrmypdf Dokumentation ist "-l deu+eng" richtig, das Log zeigt aber, dass die Konfiguration nicht gültig ist...
- das "+" Zeichen wird nicht übernommen: im Log steht nur "-srd -l deu eng"... häh?

Vielen Dank schon mal!

jh

geimist · 02. Dez. 2021

jhess schrieb:
a) Welches ist das richtige Image, um OCR auf deutsch und englisch durchzuführen?

Das originale Image von jbarlow83 deckt die drei, vier wichtigsten Sprachen für uns ab - darunter deutsch und englisch. Solange du keine weiteren Sprachen benötigst, kannst du bei jbarlow83 bleiben.

b) Kann ich den anderen Docker-Container dann löschen?

Wenn, dann Image. Der Container ist das, was temporär für jedes PDF gestartet (erzeugt) wird. Ein fehlendes Image wird eh neu geladen. Du kannst also nichts falsch machen, solange du Docker nicht deinstallierst.

Laut ocrmypdf Dokumentation ist "-l deu+eng" richtig, das Log zeigt aber, dass die Konfiguration nicht gültig ist...
- das "+" Zeichen wird nicht übernommen: im Log steht nur "-srd -l deu eng"... häh?

oha …
Welche Version hast du installiert? Von meinem Server oder von cphub?

PS:

Im Log steht: "WARNING: Error loading config file: .dockercfg: $HOME is not defined" - ich habe hier aber gelesen, dass man das ignorieren kann?

Das hat nichts zu sagen, lässt sich derzeit aber auch nicht vermeiden.

jhess · 02. Dez. 2021

Hi Stephan!

Danke für die ausführliche Antwort!

Die Version, die ich habe, habe ich von Deinem Server direkt heruntergeladen...
Und zwar das "spk" für DSM7 Version 1.1.903 (Beta)

Cheers,
Jochen

geimist · 02. Dez. 2021

jhess schrieb:
Die Version, die ich habe, habe ich von Deinem Server direkt heruntergeladen...

Ok, dann werde ich mir das nochmal ansehen. Ich hatte kürzlich das Sondzeichenhandling geändert.
Zwischenzeitlich vielleicht mal auf die zweite Sprache verzichten.

jhess · 03. Dez. 2021

Danke!

Ja, wie gesagt, ich teste ja noch... erstmal dann nur deutsche Dokumente.

Für den Fall, dass das hilft: Ich arbeite auf einem Linux Desktop, die Sprachkodierung läuft bei mir überall über UTF8.

Wie das intern auf der Synology beim Eintragen in der SynOCR-Maske kodiert wird, kann ich natürlich nicht beurteilen. Ich werde am Wochenende den Eintrag mal spaßeshalber aus einer virtuellen Maschine heraus mittels Windows10 vornehmen - mal sehen, ob das einen EInfluss hat... - meld mich dann nochmal...

Herzliche Grüße,
Jochen

geimist · 03. Dez. 2021

Ich denke nicht, dass das einen Unterschied macht. Es geht hier darum, wie Zeichen in den Formularfeldern weiterverarbeitet werden.
Bitte teste mal das aktuelle Build von meinem Server.

jhess · 05. Dez. 2021

Hi Stephan!

Das scheint jetzt mit dem Build von gestern zu klappen!
Prima! Danke und schönen Sonntag noch...

Gruß, Jochen

blariog · 05. Dez. 2021

Hi Stephan und alle,
ich habe synOCR seit einigen Monaten im Einsatz und funktionierte sehr gut. Jetzt habe ich auf DSM7 aktualisiert und mir wird ausgegeben, dass synOCR damit nicht kompatibel ist. Als Version habe ich 1.1.2, das ist doch die letzte, oder?
Oder sollte ich diese deinstallieren und den latest build nehmen?
Danke schon mal,
Mario

geimist · 05. Dez. 2021

Da nicht beide Versionen (DSM6 & DSM7) gleichzeitig auf cphub.net angeboten werden können, musst du die Beta Version von cphub.net verwenden. Du kannst sie auch von meinem Server laden. Installiere sie am besten drüber, so dass deine Einstellungen erhalten bleiben. Infos findest du in diesem Beitrag.

blariog · 05. Dez. 2021

Danke Stephan. den schon älteren Beitrag hatte ich nicht gesehen.

ragman1976 · 07. Dez. 2021

Hi,

ich habe seit einigen Tagen das Problem, dass ich die Inhalte der mit synOCR nichr durchsuchen kann, bzw. diese nicht gefunden werden?

DIe klog Datei sieht so aus

Code:

    -----------------------------------
    |    ==> installation info <==    |
    -----------------------------------

synOCR-user:              root
synOCR-user is admin:     no
synOCR-version:           1.1.903
Architecture:             x86_64
DSM-build:                42218
Device:                   218plus (1496981077)
current Profil:           default
DB-version:               4
used image (created):     jbarlow83/ocrmypdf:latest (2021-12-07T04:22:04)
used ocr-parameter:       -srd -l deu
search prefix:           
replace search prefix:    yes
renaming syntax:          §y-§m-§d_§tag_§tit
Symbol for tag marking:   #
Document split pattern:   
source for filedate:      ocr
ignored dates by search:  2021-02-29;2020-11-31
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/Scanner/1_Input/
Target directory:         /volume1/Scanner/2_Output/
BackUp directory:         /volume1/Scanner/3_Backup/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ➜ 2021-12-07_083413.pdf (Tue Dec  7 11:06:01 CET 2021)
                  temp. target file: /tmp/tmp.rY4jQSVbNE/2021-12-07_083413.pdf

              ➜ OCRmyPDF-LOG:
               -srd -l deu
               reading file from standard input
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 page is facing ⇧, confidence 8.81 - no change
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
               Postprocessing...
               Optimize ratio: 1.00 savings: 0.0%
               Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.rY4jQSVbNE/2021-12-07_083413.pdf

              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Dates found: 5
                  check date (dd mm [yy]yy): 26.11.21
                  ➜ valid
                      day:  26
                      month:11
                      year: 2021
              ➜ renaming:
                  apply renaming syntax ➜ 2021-11-26__2021-12-07_083413
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
                  target file: 2021-11-26__2021-12-07_083413.pdf
              ➜ Adapt file date (Source: OCR)
              ➜ move source file to: /volume1/Scanner/3_Backup/2021-12-07_083413.pdf
                  INFO: (notification dosn't work at DSM7 without i18n …)
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:56
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile default) - 53 PDF's / 74 Pages processed up to now
                  ➜ file count total:     53 PDF's / 74 Pages processed up to now

              ➜ delete tmp-files …

PROCESSING:   ➜ 2021-12-07_083452.pdf (Tue Dec  7 11:06:57 CET 2021)
                  temp. target file: /tmp/tmp.Lykrz6Cweq/2021-12-07_083452.pdf

              ➜ OCRmyPDF-LOG:
               -srd -l deu
               reading file from standard input
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 page is facing ⇧, confidence 13.11 - no change
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 [tesseract] lots of diacritics - possibly poor OCR
               Postprocessing...
               Optimize ratio: 1.00 savings: 0.0%
               Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.Lykrz6Cweq/2021-12-07_083452.pdf

              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Dates found: 3
                  check date (dd mm [yy]yy): 01.12.21
                  ➜ valid
                      day:  01
                      month:12
                      year: 2021
              ➜ renaming:
                  apply renaming syntax ➜ 2021-12-01__2021-12-07_083452
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
                  target file: 2021-12-01__2021-12-07_083452.pdf
              ➜ Adapt file date (Source: OCR)
              ➜ move source file to: /volume1/Scanner/3_Backup/2021-12-07_083452.pdf
                  INFO: (notification dosn't work at DSM7 without i18n …)
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:52
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile default) - 54 PDF's / 75 Pages processed up to now
                  ➜ file count total:     54 PDF's / 75 Pages processed up to now

              ➜ delete tmp-files …

PROCESSING:   ➜ Beleg_2021-12-07_083520.pdf (Tue Dec  7 11:07:49 CET 2021)
                  temp. target file: /tmp/tmp.oilYFtGhT5/Beleg_2021-12-07_083520.pdf

              ➜ OCRmyPDF-LOG:
               -srd -l deu
               reading file from standard input
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 page is facing ⇧, confidence 11.19 - no change
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
               Postprocessing...
               Optimize ratio: 1.00 savings: 0.0%
               Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.oilYFtGhT5/Beleg_2021-12-07_083520.pdf

              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Dates found: 3
                  check date (dd mm [yy]yy): 26.10.21
                  ➜ valid
                      day:  26
                      month:10
                      year: 2021
              ➜ renaming:
                  apply renaming syntax ➜ 2021-10-26__Beleg_2021-12-07_083520
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
                  target file: 2021-10-26__Beleg_2021-12-07_083520.pdf
              ➜ Adapt file date (Source: OCR)
              ➜ move source file to: /volume1/Scanner/3_Backup/Beleg_2021-12-07_083520.pdf
                  INFO: (notification dosn't work at DSM7 without i18n …)
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:57
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile default) - 55 PDF's / 76 Pages processed up to now
                  ➜ file count total:     55 PDF's / 76 Pages processed up to now

              ➜ delete tmp-files …


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Was sit da "faul" ?

Gruß

geimist · 07. Dez. 2021

Keine Ahnung. Wenn du nichts geändert hast, würde ich mal auf ein Problem mit dem OCRmyPDF-Image tippen. Die letzten Tage gab es ein Update und heute ein weiteres. Lösche mal dein aktuelles und probiere es bitte mal erneut.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat