synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Ich denke somit wird klarer, was ich meine (siehe Screenshots). Ich verstehe schon, dass ihr auch "Basic Fragen". Ich nutze Synology Server seit über 12 Jahren (sei DS207+ der Renner war ;)). Bis jetzt habe ich auch keine Community Apps verwendet. Eigentlich ist für mich SynOCR eine Ausnahme. Die App ist aber so genial, dass ich einfach schwach wurde...

Ich kann mir darauf keinen Reim machen, da es ja sonst überall funktioniert.

Hat vielleicht @Tommes oder @QTip eine Idee, warum das Icon der App fehlt und sich diese im Paketzentrum nur stoppen und deinstallieren lässt, aber nicht öffnen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Hallo,
bräuchte kurz Hilfe...
möchte das dieses Regex (123.?456.?789) "nicht gefunden" wird
funktioniert irgendwie nicht - kann das stimmen?

YAML:
    - searchstring: 123.?456.?789
      searchtyp: does not contain
      isRegEx: true
      source: content
      casesensitive: false
Kannst du es mal so testen (Obacht: RegEx ist nicht mein Steckenpferd):
YAML:
    - searchstring: ^[123.?456.?789]
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false

Bitte gerne auch mal ein Log schicken (in diesem Fall bitte das erweitere Log [in der GUI umzustellen], damit die Subrules auch geloggt werden. Link zum Upload findest du in meiner Signatur.
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.673
Punkte für Reaktionen
1.574
Punkte
314
Hat vielleicht @Tommes oder @QTip eine Idee...
Ähm... nein. Ich schaue mir das aber gerne heut Abend mal an. Da ich deine Pakete nicht nutze und somit nicht installiert habe, könnte es sein, das bei mir der selbe Effekt auftritt. Falls dem so ist, könnte ich mal auf die Suche gehen. Interessant ist aber, das eines deiner Pakete ja anstandslos zu laufen scheint, ob wohl das selbe Backend verwendet wird.

Ich meld mich, sollte ich was rausfinden.
 
  • Like
Reaktionen: geimist

vasw

Benutzer
Mitglied seit
04. Jan 2021
Beiträge
11
Punkte für Reaktionen
0
Punkte
1
Bitte gerne auch mal ein Log schicken (in diesem Fall bitte das erweitere Log [in der GUI umzustellen], damit die Subrules auch geloggt werden. Link zum Upload findest du in meiner Signatur.
danke schon mal für den Ansatz, tut aber leider nicht wie ich mir das vorstelle...
gerne lade ich das Log hoch.
stehe gerade am Schlauch "Upload Link in der Signatur..." sorry der nachfrage, aber ich finde es nicht...?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
@Tommes
Vielen Dank schonmal für deine Bereitschaft. Ich dachte an dich, weil ich ja dein Grundgerüst nutze. Bei allen anderen funktioniert es ja auch schon jahrelang ????

@vasw
Die Signatur unter meinen Posts.
Hier der Link: https://geimist.eu/link/synocrupload
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Mit der Unterregel:
YAML:
    - searchstring: 123.?456.?789
      searchtyp: does not contain
      isRegEx: true
      source: content
      casesensitive: false
und diesem String 12304590789 wird die Regel bei mir erfüllt (erfüllt, wenn der String nicht gefunden wird).

Was ich in deinem Log noch sah:
In deinem Dokument Steuernummer_Test.pdf suchst du den RegEx in Verbindung mit searchtyp: contains , was wiederum erfüllt wird. Der String ist also vorhanden. In der zweiten Regel suchst du nach dem Nichtaufkommen des Strings. Diese Regel wird natürlich nicht erfüllt (siehe Regel 1).

Oder habe ich da etwas falsch verstanden?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
  • Like
Reaktionen: Tommes

vasw

Benutzer
Mitglied seit
04. Jan 2021
Beiträge
11
Punkte für Reaktionen
0
Punkte
1
Was ich in deinem Log noch sah:
In deinem Dokument Steuernummer_Test.pdf suchst du den RegEx in Verbindung mit searchtyp: contains , was wiederum erfüllt wird. Der String ist also vorhanden. In der zweiten Regel suchst du nach dem Nichtaufkommen des Strings. Diese Regel wird natürlich nicht erfüllt (siehe Regel 1).

Oder habe ich da etwas falsch verstanden?
nochmal Danke für deine Mühe...
vielleicht erkläre ich, wie es am Ende aussehen soll, nicht das ich komplett falsch das angehe...

.../TestsynOCR/Bescheid/2021-02-04_Bescheid_Steuernummer_Test.pdf
.../TestsynOCR/Angela/2021-02-04_Angela_Testschreiben.pdf

da Angela in beiden Dokumenten vorkommt, dachte ich... die Lösung mit den 2 Regeln...?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Also nochmal getestet.
Diese kombinierte Regel:
YAML:
Regel_fuer_06_Finanzen_Steuer1:
    tagname: Angela
    targetfolder: Angela
    condition: all
    subrules:
    - searchstring: Angela
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: 123.?456.?789
      searchtyp: does not contain
      isRegEx: true
      source: content
      casesensitive: false

wird erfüllt, wenn in einem Dokument 123.456.789 NICHT vorkommt, aber Angela vorhanden ist.

Hier das Log (dafür hatte ich 123.456.789 zu 123.458.789 geändert):
Code:
search by tag rule: "Regel_fuer_06_Finanzen_Steuer1" ?
  ? condition:        all
  ? tag:              Angela
  ? destination:      Angela
      [Subrule]:
      >>> search for:      Angela
          isRegEx:         false
          searchtyp:       contains
          source:          content
          casesensitive:   false
          ? Subrule matched
      >>> search for:      123.?456.?789
          isRegEx:         true
          searchtyp:       does not contain
          source:          content
          casesensitive:   false
          ? Subrule matched
          >>> Rule is satisfied
 

vasw

Benutzer
Mitglied seit
04. Jan 2021
Beiträge
11
Punkte für Reaktionen
0
Punkte
1
@geimist
jetzt tut es bei mir auch, ehrlich gesagt weiß ich nicht was das Problem war, hab lediglich alles unnötige aus der YAML rausgeschmissen...
kurze Frage noch: was gilt den nun als Platzhalter "." und "?"
hab sowohl als auch probiert und kein Unterschied festgestellt
Danke schon mal
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Freut mich, dass es klappt.

"." ? Platzhalter für ein beliebiges Zeichen
"?" ? Der Platzhalter für 0 oder 1 Vorkommen des vorherigen Elements
 

Tuck

Benutzer
Mitglied seit
06. Feb 2021
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hallo,

ich wollte rein interessehalber fragen, ob ich in nächster Zeit schon mit einer Beta für DSM 7 rechnen kann. Habe leider nun alles auf DSM7 eingerichtet und gehe ungerne (wegen Synology Photos) zurück auf das Betriebssystem DSM 6.x...

Liebe Grüße und viel Gesundheit
Tuck

Edit: und natürlich vielen Dank für die großartige Arbeit!
 

polonus

Benutzer
Mitglied seit
01. Sep 2008
Beiträge
30
Punkte für Reaktionen
2
Punkte
8
Hallo Zusammen, gibt es eine Möglichkeit, dass nur die ganzen Worte erkannt werden? Ich habe das Problem, dass alle meine Scans, die Worte wie "Hochrechnung" oder "Abrechnung" auch im Ordner "Rechnung" gespeichert werden, obwohl sie da nicht hingehören. Hat jemand ein wie man das lösen kann? Grüße, polonus
 

Ghandi

Benutzer
Mitglied seit
26. Jun 2018
Beiträge
44
Punkte für Reaktionen
1
Punkte
8
Hallo Leute,

ich möchte vom Scansnap auf Scan mittels Dateien auf dem iPad umsteigen.
Mehrseitige Scans sind teilweise nicht gleich groß, obwohl ich das gesamte Blatt erfasst habe.
Kann ich mit Synocr festlegen das der output immer in A4 ist?

Danke!
 

Ghandi

Benutzer
Mitglied seit
26. Jun 2018
Beiträge
44
Punkte für Reaktionen
1
Punkte
8
Und noch eine Frage:
Wenn ich mit Onedrive scanne, gibt es automatische Filter die den Hintergrund wirklich weiß machen.
Ist das dann die Option --remove-background?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
synOCR ist ja lediglich eine GUI für OCRmyPDF. Ob du generell die Papiergröße anpassen kannst, erfährst du hier im Manual.

Auch zu deiner 2. Frage solltest du im Manual gute Hinweise finden. Der Parameter --remove-background sollte schonmal richtig sein. Zusätzlich verwende ich noch --clean-final.

Meine komplette Zeile sieht so aus:
--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3
 
  • Like
Reaktionen: peterhoffmann

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Ausrichtungsproblem.
Tag zusammen. Ich habe seit ca. 2 Wochen (ist mir erst im Nachhinein aufgefallen) das Problem, dass Scans im querformat (also nicht richtig ausgerichtet) mit folgenden Parametern gescannt: -srd -l deu --rotate-pages-threshold 5

Zwar korrekt gedreht werden, die ursprüngliche Ausrichtung des Dokuments bleibt aber erhalten
Hallo dreamdealer,

es gibt heute ein Update von OCRmyPDF, welches einen Fehler beim Drehen der Seiten adressiert. Möglicherweise hilft es dir weiter.

jbarlow83/ocrmypdf:latest jbarlow83/ocrmypdf:11.6.2

und das Gleiche bei meinen Polyglotimages.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
jbarlow83/ocrmypdf:latest jbarlow83/ocrmypdf:11.6.2
Stephan, hilf mir mal bitte, ohne dass ich 75 Seiten durchsuchen muss. Wann war Dein Image die bessere Wahl, statt das von jbarlow zu nehmen. Ich habe auf Deines mal gewechselt und weiss nicht mehr warum.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat