synOCR synOCR - GUI für OCRmyPDF

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
Das geht mit dem Editor/ Konfigurator. Dieser setzt Excel voraus. Den link findest Du in meiner Signatur. Einige Hilfen findest Du im Paket und in unserem YouTube, ebenfalls in der Signatur.
Einfach mal ausprobieren.

Gruß Karsten
 
  • Like
Reaktionen: geimist

Eldorado175

Benutzer
Mitglied seit
04. Mrz 2019
Beiträge
36
Punkte für Reaktionen
1
Punkte
8
Hallo, finde das Projekt wirklich Klassen und SynOTR nutze ich auch schon. Jetzt möchte ich auch SynOcr installieren und ich Anfänger bekomme es nicht hin. Gestehe aber auch, das ich die 204 Seiten hier nicht komplett gelesen habe.
bei mir scheitert es schon mit dem Docker…woher bekomme ich den. Beim Installieren von SynOcr bekomme ich schon eine Fehlermeldung.
habe eine DS216 Play mit der neuesten Firmware.
gibt es hier eine einfach Anleitung.
danke
claus
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.209
Punkte für Reaktionen
1.034
Punkte
224
Docker heißt jetzt Container Manager, findest du im Paketzentrum.

Um synOCR zu nutzen, lade dir die aktuellste Version über die Signatur von @geimist auf deinen Mac oder PC und installiere es dann über das Paketzentrum über die Schaltfläche „manuelle Installation“.
 

gunfran

Benutzer
Mitglied seit
25. Nov 2014
Beiträge
31
Punkte für Reaktionen
17
Punkte
58
Wenn mich nicht alles täuscht wirst du synocr vermutlich nicht nutzen können. Den Play-Varianten von Synology fehlt meines Wissens die Unterstützung für den Container Manager.

Möglicherweise ist das nicht mehr so, aber ich befürchte nicht
 
  • Like
Reaktionen: Monacum

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.209
Punkte für Reaktionen
1.034
Punkte
224
Ach Mist, ja du hast wohl leider recht, gunfran.
 

Eldorado175

Benutzer
Mitglied seit
04. Mrz 2019
Beiträge
36
Punkte für Reaktionen
1
Punkte
8
Ach schade…wäre genau das, was ich bräuchte um PDF zu indizieren
 

tt-wb

Benutzer
Mitglied seit
19. Okt 2020
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Hat jemand eine Idee zu diesem Fehler: Nach dem 1.12.23 läuft Änderung der Konfiguration die Erkennung verquer und er erkennt immer Zeilen wo keine sind U(siehe unten) und macht dann textlich einen Kauderwelsch daraus, vorher gab es keine Probleme. V1.4.5, Synology DSM 7.2.1 69057 Upd.3


Kennt jemand dies und hat eine Lösung? vielen Dank



Bildschirmfoto 2023-12-06 um 08.03.55.png
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.562
Punkte für Reaktionen
1.388
Punkte
234
  • Ist die Sprache richtig eingestellt?
  • Als andere Ursache könnte ich mir nur ein Update des OCRmyPDF Image vorstellen. Stelle mal bitte im Profil ein älteres ein (z.B. v12.7.2)

Edit:
Es kann auch an einem schlechten, bereits vorhandenen Textlayer liegen (z.B. durch eine Scanapp mit mäßiger OCR Qualität).
So und so müsstest du ein erneutes OCRen erzwingen, indem du den Parameter -s (skip Text) durch -f (force OCR) ersetzt.
 
Zuletzt bearbeitet:

tt-wb

Benutzer
Mitglied seit
19. Okt 2020
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
OK, danke - ich werde testen!

OK, nach Umstellen des Images und der Option f geht es wieder wie gewohnt.... nochmals danke
 
Zuletzt bearbeitet:
  • Like
Reaktionen: geimist

DirkKn

Benutzer
Mitglied seit
11. Apr 2016
Beiträge
128
Punkte für Reaktionen
13
Punkte
18
Als andere Ursache könnte ich mir nur ein Update des OCRmyPDF Image vorstellen. Stelle mal bitte im Profil ein älteres ein (z.B. v12.7.2)
Ja, es liegt am ocrmypdf vom 4.12.23 Zumindest bei mir. ein "-force" macht keinen Unterschied.
Kann man da keinen Automatismus einbauen, dass man alternativ auf die jeweils letzte Version zurückgreifen kann? Die 12.7.2 funktioniert ja nur so lala
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.562
Punkte für Reaktionen
1.388
Punkte
234
Das -f keinen Unterschied macht, ist zu erwarten, allerdings notwendig, wenn man eine bereits geocrte Datei erneut erkennen lassen möchte.

Bitte meldet solche Probleme auch direkt bei jbarlow83.
 

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Hallo Zusammen nach einigen Monaten in denen ich mich aus Zeitmangel leider nicht mit meinem papierlosen Büro und synOCR beschäftigen konnte, habe ich mich der Sache nochmal angenommen, benötige aber nochmal Hilfe um vllt zu einer für mich persönlich perfekten Lösung zu kommen...

1. ich habe es leider nicht hinbekommen einen Scan zuverlässig in der Ordnerstruktur einzusortieren und gleichzeitig eine Kopie der Datei in das Input-Verzeichnis von EcoDms zu kopieren, mit 2 Profilen und jeweils einer YAML Datei habe ich erfolglos experimentiert...

2. die Kombination aus synOCR und Synology Drive ist im Alltag die perfekteste Lösung hat für mich persönlich aber ein großes Manko:
In der Drive App kann ich leider die Dokumente nicht nach Erstellungsdatum sortieren sondern nur nach Änderungsdatum. Das Änderungsdatum entspricht dem Datum welches im Dokument gefunden wurde, kann man einstellen dass Änderungsdatum = Erstellungsdatum ist evtl. als Option?
Damit könnte ich zukünftig meine Workflow wie folgt realisieren:
- Dokumente in den Input-Ordner scannen bzw. vorhandene PDFs dahin verschieben
- Verarbeitung durch synOCR
- in der Drive App unter Dokumente steht das neueste Dokument, unabhängig in welchem Unterordner es abgelegt ist, immer oben (bei absteigender Sortierung nach Änderungsdatum)
- Dokumente auswählen, ggf. taggen und manuell in das Inputverzeichnis von EcoDms kopieren.

Punkt 1 wäre damit für mich hinfällig und löst auch ein weiteres Problem in unserem Alltag: Egal was gescannt wird es ist immer direkt in der App an oberster Stelle, ohne erst noch danach suchen zu müssen.
 

Anhänge

  • IMG_6213.jpeg
    IMG_6213.jpeg
    209,2 KB · Aufrufe: 6

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Jetzt bin ich schlauer... vergesst meinen vorigen Post ich habe die Lösung selber gefunden, dass ich da nicht früher drauf gekommen bin.:unsure:
Aber das Problem sitzt ja meistens vor dem Rechner...
Die gewünschte Einstellung heisst "Dateidatum korrigieren"
Warum auch immer habe ich diese Einstellung stets auf die Verwendung im Dateinamen bezogen und nicht auf das Erstellungs- oder Änderungsdatum, eigentlich logisch denn den Dateinamen kann ich mir ja selber in der OCR Rename-Sytntax konfigurieren.

So ist das jetzt die mit Abstand genialste Lösung für mein DMS! Großes Danke an die Macher und Beteiligten an SynOCR!!!
 
Zuletzt bearbeitet:
  • Love
Reaktionen: geimist

DirkKn

Benutzer
Mitglied seit
11. Apr 2016
Beiträge
128
Punkte für Reaktionen
13
Punkte
18
Kann man da keinen Automatismus einbauen, dass man alternativ auf die jeweils letzte Version zurückgreifen kann?
Das hat sich quasi erledigt. Ich habe gesehen, sobald man ein älteres Image runterlädt lässt sich das (nach einiger Zeit) auch auswählen.
Mit der 15.4.4 funktioniert die Erkennung jetzt auch wieder
 

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
jetzt stoße ich mit meinen REGEX Kenntnissen und der Bearbeitung der YAML Rues an meine grenzen hoffe jemand kann mir einen Tipp geben.
ich habe zwar wegen EcoDMS Erfahrungen mit REGEX gesammelt aber mit den tagnames komme ich nicht weiter...

zum Testen habe ich zwei Rechnungen Ergebnis sollte etwas so aussehen, je nachdem für welches Kind die Rechnung ausgestellt wurde.


2022-11-12_#STADT_XXX_KINDERGARTEN_Rechnung_Mittagessen_Hans
2022-11-12_#STADT_XXX_KINDERGARTEN_Rechnung_Mittagessen_Franz

bisher hatte ich dies über 2 Regeln gelöst, mit der neuen Möglichkeiten den Dateinamen über REGEX zu dynamisch zu erzeugen müsste dies doch auch mit einer Regel möglich sein oder? Irgendwie funktioniert das nicht.


meine Regel dazu:
Code:
Stadt_XXX:
    tagname: XXX_KINDERGARTEN_Kindergartenbühr_§tagname_RegEx
    targetfolder: /Städte/KINDERGARTEN/
    tagname_RegEx: (?i)(Hans|Franz)
    condition: all
    subrules:
    - searchstring: (Hans|Franz)
      searchtyp: contains
      isRegEx: true
      multilineregex: false
    - searchstring: Stadt Krautheim
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: (?i)(Mittagsessen|Mittagessen)
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false
    - searchstring: Rechnung
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false

Auszug aus der Logdatei:

Code:
raise ScannerError("while scanning for the next token", None,
yaml.scanner.ScannerError: while scanning for the next token
found character '\t' that cannot start any token
  in "<unicode string>", line 336, column 1:
        - searchstring: Mittagsessen|Mi ...

Zeile 336 = - searchstring: (?i)(Mittagsessen|Mittagessen)

Ich finde einfach keinen Fehler habe es auch mit einfacheren Beispielen probiert, teilweise habe ich auch einfach die Beispiele aus dem Wiki kopiert und entsprechend abgeändert. Bin Dankbar über jeden Hinweis.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.562
Punkte für Reaktionen
1.388
Punkte
234
found character '\t' deutet auf einen Tabulator hin. Es müssen aber einzelne Leerzeichen sein. Bitte das mal checken.
(Vielleicht mal die YAML in einem Editor öffnen, welcher auch unsichtbare Zeichen anzeigen kann und ggf. mal nach einem Tabulator suchen).
 
  • Like
Reaktionen: Chr!s

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
884
Punkte für Reaktionen
187
Punkte
63
Hi Chris,
Stephan wieder schnell heute. Yep ist wohl so.
Aber auch die Regeln würde ich anders lösen. Muss es alles in einer sein? :unsure:

Karsten
 
  • Like
Reaktionen: Chr!s

Chr!s

Benutzer
Mitglied seit
22. Dez 2021
Beiträge
46
Punkte für Reaktionen
25
Punkte
68
Ihr seid Klasse! Das mit dem Tabulator war es, erklärt auch warum ich den Fehler auch an anderen Stellen hatte, jetzt werde ich mich weiter an die Regeln wagen:)

  • Ist die Sprache richtig eingestellt?
  • Als andere Ursache könnte ich mir nur ein Update des OCRmyPDF Image vorstellen. Stelle mal bitte im Profil ein älteres ein (z.B. v12.7.2)
Ich habe heute ebenfalls bemerkt dass die OCR nur Mist ergeben hat, der Dateiname allerdings entsprechend der Regeln erzeugt wurde und mir das bis jetzt nicht aufgefallen ist. Zurückstellen auf v12.7.2. löste das Problem. Ohne den Post von @tt-wb wäre mir das vermutlich sobald nicht aufgefallen.
Evtl. haben auch andere User den Fehler ohne es bemerkt zu haben, wäre vermutlich ratsam Stichproben zu machen.
 
  • Like
Reaktionen: geimist

tt-wb

Benutzer
Mitglied seit
19. Okt 2020
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Wo kann man explizit eine andere OCR Version (außer die 12.7.2) auswählen? Bei mir gibt es nur latest und die funktioniert immer noch nicht, obwohl oben jemand meinte dass die 15.4.4 wieder läuft?
Danke und viele Grüße
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat