synOCR synOCR - GUI für OCRmyPDF

Struppix · 24. Nov. 2023

Das geht mit dem Editor/ Konfigurator. Dieser setzt Excel voraus. Den link findest Du in meiner Signatur. Einige Hilfen findest Du im Paket und in unserem YouTube, ebenfalls in der Signatur.
Einfach mal ausprobieren.

Gruß Karsten

Eldorado175 · 03. Dez. 2023

Hallo, finde das Projekt wirklich Klassen und SynOTR nutze ich auch schon. Jetzt möchte ich auch SynOcr installieren und ich Anfänger bekomme es nicht hin. Gestehe aber auch, das ich die 204 Seiten hier nicht komplett gelesen habe.
bei mir scheitert es schon mit dem Docker…woher bekomme ich den. Beim Installieren von SynOcr bekomme ich schon eine Fehlermeldung.
habe eine DS216 Play mit der neuesten Firmware.
gibt es hier eine einfach Anleitung.
danke
claus

Monacum · 03. Dez. 2023

Docker heißt jetzt Container Manager, findest du im Paketzentrum.

Um synOCR zu nutzen, lade dir die aktuellste Version über die Signatur von @geimist auf deinen Mac oder PC und installiere es dann über das Paketzentrum über die Schaltfläche „manuelle Installation“.

gunfran · 03. Dez. 2023

Wenn mich nicht alles täuscht wirst du synocr vermutlich nicht nutzen können. Den Play-Varianten von Synology fehlt meines Wissens die Unterstützung für den Container Manager.

Möglicherweise ist das nicht mehr so, aber ich befürchte nicht

Monacum · 03. Dez. 2023

Ach Mist, ja du hast wohl leider recht, gunfran.

Eldorado175 · 03. Dez. 2023

Monacum schrieb:
Container Manager, findest du im Paketzentrum.

Bei mir wird es nicht angezeigt

Eldorado175 · 03. Dez. 2023

Ach schade…wäre genau das, was ich bräuchte um PDF zu indizieren

tt-wb · 06. Dez. 2023

Hat jemand eine Idee zu diesem Fehler: Nach dem 1.12.23 läuft Änderung der Konfiguration die Erkennung verquer und er erkennt immer Zeilen wo keine sind U(siehe unten) und macht dann textlich einen Kauderwelsch daraus, vorher gab es keine Probleme. V1.4.5, Synology DSM 7.2.1 69057 Upd.3

Kennt jemand dies und hat eine Lösung? vielen Dank

Bildschirmfoto 2023-12-06 um 08.03.55.png

geimist · 06. Dez. 2023

Ist die Sprache richtig eingestellt?
Als andere Ursache könnte ich mir nur ein Update des OCRmyPDF Image vorstellen. Stelle mal bitte im Profil ein älteres ein (z.B. v12.7.2)

Edit:
Es kann auch an einem schlechten, bereits vorhandenen Textlayer liegen (z.B. durch eine Scanapp mit mäßiger OCR Qualität).
So und so müsstest du ein erneutes OCRen erzwingen, indem du den Parameter -s (skip Text) durch -f (force OCR) ersetzt.

tt-wb · 06. Dez. 2023

OK, danke - ich werde testen!

OK, nach Umstellen des Images und der Option f geht es wieder wie gewohnt.... nochmals danke

DirkKn · 07. Dez. 2023

geimist schrieb:
Als andere Ursache könnte ich mir nur ein Update des OCRmyPDF Image vorstellen. Stelle mal bitte im Profil ein älteres ein (z.B. v12.7.2)

Ja, es liegt am ocrmypdf vom 4.12.23 Zumindest bei mir. ein "-force" macht keinen Unterschied.
Kann man da keinen Automatismus einbauen, dass man alternativ auf die jeweils letzte Version zurückgreifen kann? Die 12.7.2 funktioniert ja nur so lala

geimist · 07. Dez. 2023

Das -f keinen Unterschied macht, ist zu erwarten, allerdings notwendig, wenn man eine bereits geocrte Datei erneut erkennen lassen möchte.

Bitte meldet solche Probleme auch direkt bei jbarlow83.

Chr!s · 10. Dez. 2023

Hallo Zusammen nach einigen Monaten in denen ich mich aus Zeitmangel leider nicht mit meinem papierlosen Büro und synOCR beschäftigen konnte, habe ich mich der Sache nochmal angenommen, benötige aber nochmal Hilfe um vllt zu einer für mich persönlich perfekten Lösung zu kommen...

1. ich habe es leider nicht hinbekommen einen Scan zuverlässig in der Ordnerstruktur einzusortieren und gleichzeitig eine Kopie der Datei in das Input-Verzeichnis von EcoDms zu kopieren, mit 2 Profilen und jeweils einer YAML Datei habe ich erfolglos experimentiert...

2. die Kombination aus synOCR und Synology Drive ist im Alltag die perfekteste Lösung hat für mich persönlich aber ein großes Manko:
In der Drive App kann ich leider die Dokumente nicht nach Erstellungsdatum sortieren sondern nur nach Änderungsdatum. Das Änderungsdatum entspricht dem Datum welches im Dokument gefunden wurde, kann man einstellen dass Änderungsdatum = Erstellungsdatum ist evtl. als Option?
Damit könnte ich zukünftig meine Workflow wie folgt realisieren:
- Dokumente in den Input-Ordner scannen bzw. vorhandene PDFs dahin verschieben
- Verarbeitung durch synOCR
- in der Drive App unter Dokumente steht das neueste Dokument, unabhängig in welchem Unterordner es abgelegt ist, immer oben (bei absteigender Sortierung nach Änderungsdatum)
- Dokumente auswählen, ggf. taggen und manuell in das Inputverzeichnis von EcoDms kopieren.

Punkt 1 wäre damit für mich hinfällig und löst auch ein weiteres Problem in unserem Alltag: Egal was gescannt wird es ist immer direkt in der App an oberster Stelle, ohne erst noch danach suchen zu müssen.

Chr!s · 10. Dez. 2023

Jetzt bin ich schlauer... vergesst meinen vorigen Post ich habe die Lösung selber gefunden, dass ich da nicht früher drauf gekommen bin.

Aber das Problem sitzt ja meistens vor dem Rechner...
Die gewünschte Einstellung heisst "Dateidatum korrigieren"
Warum auch immer habe ich diese Einstellung stets auf die Verwendung im Dateinamen bezogen und nicht auf das Erstellungs- oder Änderungsdatum, eigentlich logisch denn den Dateinamen kann ich mir ja selber in der OCR Rename-Sytntax konfigurieren.

So ist das jetzt die mit Abstand genialste Lösung für mein DMS! Großes Danke an die Macher und Beteiligten an SynOCR!!!

DirkKn · 10. Dez. 2023

DirkKn schrieb:
Kann man da keinen Automatismus einbauen, dass man alternativ auf die jeweils letzte Version zurückgreifen kann?

Das hat sich quasi erledigt. Ich habe gesehen, sobald man ein älteres Image runterlädt lässt sich das (nach einiger Zeit) auch auswählen.
Mit der 15.4.4 funktioniert die Erkennung jetzt auch wieder

Chr!s · 11. Dez. 2023

jetzt stoße ich mit meinen REGEX Kenntnissen und der Bearbeitung der YAML Rues an meine grenzen hoffe jemand kann mir einen Tipp geben.
ich habe zwar wegen EcoDMS Erfahrungen mit REGEX gesammelt aber mit den tagnames komme ich nicht weiter...

zum Testen habe ich zwei Rechnungen Ergebnis sollte etwas so aussehen, je nachdem für welches Kind die Rechnung ausgestellt wurde.

2022-11-12_#STADT_XXX_KINDERGARTEN_Rechnung_Mittagessen_Hans
2022-11-12_#STADT_XXX_KINDERGARTEN_Rechnung_Mittagessen_Franz

bisher hatte ich dies über 2 Regeln gelöst, mit der neuen Möglichkeiten den Dateinamen über REGEX zu dynamisch zu erzeugen müsste dies doch auch mit einer Regel möglich sein oder? Irgendwie funktioniert das nicht.

meine Regel dazu:

Code:

Stadt_XXX:
    tagname: XXX_KINDERGARTEN_Kindergartenbühr_§tagname_RegEx
    targetfolder: /Städte/KINDERGARTEN/
    tagname_RegEx: (?i)(Hans|Franz)
    condition: all
    subrules:
    - searchstring: (Hans|Franz)
      searchtyp: contains
      isRegEx: true
      multilineregex: false
    - searchstring: Stadt Krautheim
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: (?i)(Mittagsessen|Mittagessen)
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false
    - searchstring: Rechnung
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false

Auszug aus der Logdatei:

Code:

raise ScannerError("while scanning for the next token", None,
yaml.scanner.ScannerError: while scanning for the next token
found character '\t' that cannot start any token
  in "<unicode string>", line 336, column 1:
        - searchstring: Mittagsessen|Mi ...

Zeile 336 = - searchstring: (?i)(Mittagsessen|Mittagessen)

Ich finde einfach keinen Fehler habe es auch mit einfacheren Beispielen probiert, teilweise habe ich auch einfach die Beispiele aus dem Wiki kopiert und entsprechend abgeändert. Bin Dankbar über jeden Hinweis.

geimist · 11. Dez. 2023

found character '\t' deutet auf einen Tabulator hin. Es müssen aber einzelne Leerzeichen sein. Bitte das mal checken.
(Vielleicht mal die YAML in einem Editor öffnen, welcher auch unsichtbare Zeichen anzeigen kann und ggf. mal nach einem Tabulator suchen).

Struppix · 11. Dez. 2023

Hi Chris,
Stephan wieder schnell heute. Yep ist wohl so.
Aber auch die Regeln würde ich anders lösen. Muss es alles in einer sein?

Karsten

Chr!s · 11. Dez. 2023

Ihr seid Klasse! Das mit dem Tabulator war es, erklärt auch warum ich den Fehler auch an anderen Stellen hatte, jetzt werde ich mich weiter an die Regeln wagen

geimist schrieb:
Ist die Sprache richtig eingestellt?

Als andere Ursache könnte ich mir nur ein Update des OCRmyPDF Image vorstellen. Stelle mal bitte im Profil ein älteres ein (z.B. v12.7.2)

Ich habe heute ebenfalls bemerkt dass die OCR nur Mist ergeben hat, der Dateiname allerdings entsprechend der Regeln erzeugt wurde und mir das bis jetzt nicht aufgefallen ist. Zurückstellen auf v12.7.2. löste das Problem. Ohne den Post von @tt-wb wäre mir das vermutlich sobald nicht aufgefallen.
Evtl. haben auch andere User den Fehler ohne es bemerkt zu haben, wäre vermutlich ratsam Stichproben zu machen.

tt-wb · 12. Dez. 2023

Wo kann man explizit eine andere OCR Version (außer die 12.7.2) auswählen? Bei mir gibt es nur latest und die funktioniert immer noch nicht, obwohl oben jemand meinte dass die 15.4.4 wieder läuft?
Danke und viele Grüße

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat