synOCR synOCR - GUI für OCRmyPDF

fraedshi

Benutzer
Mitglied seit
14. Jan 2017
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Moin, bitte verweist mich auf den richtigen Thread falls mein Post hier fehl am Platze sein sollte, aber beim Versuch, synocr 1.1.902 auf einer DS416play mit 8GB Ram zu installieren bin ich gescheitert. Dort läuft DSM 6.2.4-25556 Update 2, auf DSM 7 will ich wegen (mir) unklarer Kompatibilität mit VMM und Docker erstmal nicht updaten.
Gibt es irgendwo ein Repository mit historischen Versionen von synocr, auf cphub hatte ich die Funktionalität bislang nicht entdeckt.
Besten Dank im Voraus!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Dann nimm das offizielle Release - Version 1.1.2. Zu finden auf cphub oder von meinem Server.

PS:
läuft auf der DS416play überhaupt Docker?
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
  • Like
Reaktionen: geimist

fraedshi

Benutzer
Mitglied seit
14. Jan 2017
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
@geimist YMMD! Danke für den Link zu Deinem Server! Auf cphub finde ich ältere Versionen nicht bräuchte es dafür nen Login oder liegts an mir?
Manuell installiert, laufen auf der 416play Docker und VMM problemlos. Die CPU reißt nix groß, für meine Zwecke reichts aber locker. Meine hat 8GB RAM, die 2GB der Serie reichen nicht.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234

fraedshi

Benutzer
Mitglied seit
14. Jan 2017
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Jup, und das flutscht auch schon, vielen Dank!
 
Zuletzt bearbeitet von einem Moderator:

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Stephan, sorry, wenn dass auf den vorherigen 104 Seiten schon steht (sicher!), aber was macht OCRmyPDF mit PDFs, welche schon OCRed wurden?

- gar nix?
- YAML abarbeiten und in Verzeichnisse sortieren?
- nochmal OCR scannen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Die werden ganz normal an OCRmyPDF übergeben.
Als Standard ist ja der Parameter -s gesetzt (= skip text). Die PDFs werden dann also bzgl. OCR übersprungen. Alles Weitere passiert wie gewohnt. Mit dem Parameter -f (= force) kannst du ein erneutes ocren erzwingen.
 
  • Like
Reaktionen: mamema

jhess

Benutzer
Mitglied seit
14. Apr 2016
Beiträge
41
Punkte für Reaktionen
5
Punkte
8
Hallo allerseits!

Seit ein paar Tagen habe ich das DSM7-Paket für SynOCR auf meienr Station installiert.

Bisher einige Experimente und Tests und ich bin begeistert!

@geimist: Ganz herzlichen Dank dafür, dass Du das entwickelst und hier soviel schreibst!

Vielleicht kann mir jemand hierbei helfen, - ich verstehe ein zwei Dinge nicht so ganz:

Ich habe versucht in der Konfiguration mit "-srd -l deu+eng" das deutsche und das englische Vokabular zu nutzen.

Es stehen mir dazu zwei Docker-Images zur Verfügung:

- einmal von "jbarlow83" (latest) und
- ein "polyglott" von "geimist" (latest)

Nun frage ich mich,

a) Welches ist das richtige Image, um OCR auf deutsch und englisch durchzuführen?

b) Kann ich den anderen Docker-Container dann löschen?

c) Was mache ich bei der Konfiguration falsch - "-srd -l deu+eng" führt dazu, dass die PDFs nicht verschoben werden (und soweit ich das sehe auch nicht wird auch keine DSM-Benachrichtigung erstellt...)

Im Log steht: "WARNING: Error loading config file: .dockercfg: $HOME is not defined" - ich habe hier aber gelesen, dass man das ignorieren kann?

Laut ocrmypdf Dokumentation ist "-l deu+eng" richtig, das Log zeigt aber, dass die Konfiguration nicht gültig ist...
- das "+" Zeichen wird nicht übernommen: im Log steht nur "-srd -l deu eng"... häh?


Vielen Dank schon mal!

jh
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
a) Welches ist das richtige Image, um OCR auf deutsch und englisch durchzuführen?
Das originale Image von jbarlow83 deckt die drei, vier wichtigsten Sprachen für uns ab - darunter deutsch und englisch. Solange du keine weiteren Sprachen benötigst, kannst du bei jbarlow83 bleiben.

b) Kann ich den anderen Docker-Container dann löschen?
Wenn, dann Image. Der Container ist das, was temporär für jedes PDF gestartet (erzeugt) wird. Ein fehlendes Image wird eh neu geladen. Du kannst also nichts falsch machen, solange du Docker nicht deinstallierst.

Laut ocrmypdf Dokumentation ist "-l deu+eng" richtig, das Log zeigt aber, dass die Konfiguration nicht gültig ist...
- das "+" Zeichen wird nicht übernommen: im Log steht nur "-srd -l deu eng"... häh?
oha …
Welche Version hast du installiert? Von meinem Server oder von cphub?


PS:
Im Log steht: "WARNING: Error loading config file: .dockercfg: $HOME is not defined" - ich habe hier aber gelesen, dass man das ignorieren kann?
Das hat nichts zu sagen, lässt sich derzeit aber auch nicht vermeiden.
 

jhess

Benutzer
Mitglied seit
14. Apr 2016
Beiträge
41
Punkte für Reaktionen
5
Punkte
8
Hi Stephan!

Danke für die ausführliche Antwort!

Die Version, die ich habe, habe ich von Deinem Server direkt heruntergeladen...
Und zwar das "spk" für DSM7 Version 1.1.903 (Beta)

Cheers,
Jochen
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Die Version, die ich habe, habe ich von Deinem Server direkt heruntergeladen...
Ok, dann werde ich mir das nochmal ansehen. Ich hatte kürzlich das Sondzeichenhandling geändert.
Zwischenzeitlich vielleicht mal auf die zweite Sprache verzichten.
 

jhess

Benutzer
Mitglied seit
14. Apr 2016
Beiträge
41
Punkte für Reaktionen
5
Punkte
8
Danke!

Ja, wie gesagt, ich teste ja noch... erstmal dann nur deutsche Dokumente.

Für den Fall, dass das hilft: Ich arbeite auf einem Linux Desktop, die Sprachkodierung läuft bei mir überall über UTF8.

Wie das intern auf der Synology beim Eintragen in der SynOCR-Maske kodiert wird, kann ich natürlich nicht beurteilen. Ich werde am Wochenende den Eintrag mal spaßeshalber aus einer virtuellen Maschine heraus mittels Windows10 vornehmen - mal sehen, ob das einen EInfluss hat... - meld mich dann nochmal...

Herzliche Grüße,
Jochen
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ich denke nicht, dass das einen Unterschied macht. Es geht hier darum, wie Zeichen in den Formularfeldern weiterverarbeitet werden.
Bitte teste mal das aktuelle Build von meinem Server.
 

jhess

Benutzer
Mitglied seit
14. Apr 2016
Beiträge
41
Punkte für Reaktionen
5
Punkte
8
Hi Stephan!

Das scheint jetzt mit dem Build von gestern zu klappen!
Prima! Danke und schönen Sonntag noch...

Gruß, Jochen
 
  • Like
Reaktionen: geimist

blariog

Benutzer
Mitglied seit
05. Dez 2021
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hi Stephan und alle,
ich habe synOCR seit einigen Monaten im Einsatz und funktionierte sehr gut. Jetzt habe ich auf DSM7 aktualisiert und mir wird ausgegeben, dass synOCR damit nicht kompatibel ist. Als Version habe ich 1.1.2, das ist doch die letzte, oder?
Oder sollte ich diese deinstallieren und den latest build nehmen?
Danke schon mal,
Mario
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Da nicht beide Versionen (DSM6 & DSM7) gleichzeitig auf cphub.net angeboten werden können, musst du die Beta Version von cphub.net verwenden. Du kannst sie auch von meinem Server laden. Installiere sie am besten drüber, so dass deine Einstellungen erhalten bleiben. Infos findest du in diesem Beitrag.
 
  • Like
Reaktionen: blariog

ragman1976

Benutzer
Mitglied seit
10. Jan 2017
Beiträge
45
Punkte für Reaktionen
2
Punkte
8
Hi,

ich habe seit einigen Tagen das Problem, dass ich die Inhalte der mit synOCR nichr durchsuchen kann, bzw. diese nicht gefunden werden?

DIe klog Datei sieht so aus
Code:
    -----------------------------------
    |    ==> installation info <==    |
    -----------------------------------

synOCR-user:              root
synOCR-user is admin:     no
synOCR-version:           1.1.903
Architecture:             x86_64
DSM-build:                42218
Device:                   218plus (1496981077)
current Profil:           default
DB-version:               4
used image (created):     jbarlow83/ocrmypdf:latest (2021-12-07T04:22:04)
used ocr-parameter:       -srd -l deu
search prefix:           
replace search prefix:    yes
renaming syntax:          §y-§m-§d_§tag_§tit
Symbol for tag marking:   #
Document split pattern:   
source for filedate:      ocr
ignored dates by search:  2021-02-29;2020-11-31
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/Scanner/1_Input/
Target directory:         /volume1/Scanner/2_Output/
BackUp directory:         /volume1/Scanner/3_Backup/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ➜ 2021-12-07_083413.pdf (Tue Dec  7 11:06:01 CET 2021)
                  temp. target file: /tmp/tmp.rY4jQSVbNE/2021-12-07_083413.pdf

              ➜ OCRmyPDF-LOG:
               -srd -l deu
               reading file from standard input
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 page is facing ⇧, confidence 8.81 - no change
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
               Postprocessing...
               Optimize ratio: 1.00 savings: 0.0%
               Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.rY4jQSVbNE/2021-12-07_083413.pdf

              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Dates found: 5
                  check date (dd mm [yy]yy): 26.11.21
                  ➜ valid
                      day:  26
                      month:11
                      year: 2021
              ➜ renaming:
                  apply renaming syntax ➜ 2021-11-26__2021-12-07_083413
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
                  target file: 2021-11-26__2021-12-07_083413.pdf
              ➜ Adapt file date (Source: OCR)
              ➜ move source file to: /volume1/Scanner/3_Backup/2021-12-07_083413.pdf
                  INFO: (notification dosn't work at DSM7 without i18n …)
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:56
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile default) - 53 PDF's / 74 Pages processed up to now
                  ➜ file count total:     53 PDF's / 74 Pages processed up to now

              ➜ delete tmp-files …

PROCESSING:   ➜ 2021-12-07_083452.pdf (Tue Dec  7 11:06:57 CET 2021)
                  temp. target file: /tmp/tmp.Lykrz6Cweq/2021-12-07_083452.pdf

              ➜ OCRmyPDF-LOG:
               -srd -l deu
               reading file from standard input
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 page is facing ⇧, confidence 13.11 - no change
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 [tesseract] lots of diacritics - possibly poor OCR
               Postprocessing...
               Optimize ratio: 1.00 savings: 0.0%
               Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.Lykrz6Cweq/2021-12-07_083452.pdf

              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Dates found: 3
                  check date (dd mm [yy]yy): 01.12.21
                  ➜ valid
                      day:  01
                      month:12
                      year: 2021
              ➜ renaming:
                  apply renaming syntax ➜ 2021-12-01__2021-12-07_083452
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
                  target file: 2021-12-01__2021-12-07_083452.pdf
              ➜ Adapt file date (Source: OCR)
              ➜ move source file to: /volume1/Scanner/3_Backup/2021-12-07_083452.pdf
                  INFO: (notification dosn't work at DSM7 without i18n …)
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:52
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile default) - 54 PDF's / 75 Pages processed up to now
                  ➜ file count total:     54 PDF's / 75 Pages processed up to now

              ➜ delete tmp-files …

PROCESSING:   ➜ Beleg_2021-12-07_083520.pdf (Tue Dec  7 11:07:49 CET 2021)
                  temp. target file: /tmp/tmp.oilYFtGhT5/Beleg_2021-12-07_083520.pdf

              ➜ OCRmyPDF-LOG:
               -srd -l deu
               reading file from standard input
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
                   1 page is facing ⇧, confidence 11.19 - no change
                   1    **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
                  **** Error: stream operator isn't terminated by valid EOL.
                              Output may be incorrect.
              
               Postprocessing...
               Optimize ratio: 1.00 savings: 0.0%
               Output sent to stdout
              ← OCRmyPDF-LOG-END

                target file (OK): /tmp/tmp.oilYFtGhT5/Beleg_2021-12-07_083520.pdf

              ➜ search tags and date:
                no tags defined
                  Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
                  Dates found: 3
                  check date (dd mm [yy]yy): 26.10.21
                  ➜ valid
                      day:  26
                      month:10
                      year: 2021
              ➜ renaming:
                  apply renaming syntax ➜ 2021-10-26__Beleg_2021-12-07_083520
              ➜ edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
                  target file: 2021-10-26__Beleg_2021-12-07_083520.pdf
              ➜ Adapt file date (Source: OCR)
              ➜ move source file to: /volume1/Scanner/3_Backup/Beleg_2021-12-07_083520.pdf
                  INFO: (notification dosn't work at DSM7 without i18n …)
                  INFO: (PushBullet-TOKEN not set)

              Stats:
                  ➜ runtime last file:    00:00:57
                  ➜ pagecount last file:  1
                  ➜ file count profile :  (profile default) - 55 PDF's / 76 Pages processed up to now
                  ➜ file count total:     55 PDF's / 76 Pages processed up to now

              ➜ delete tmp-files …


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Was sit da "faul" ?

Gruß
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Keine Ahnung. Wenn du nichts geändert hast, würde ich mal auf ein Problem mit dem OCRmyPDF-Image tippen. Die letzten Tage gab es ein Update und heute ein weiteres. Lösche mal dein aktuelles und probiere es bitte mal erneut.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat