synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Die von dir hochgeladene Regeldatei wurde um keine persönlichen Kriterien erweitert.
Alles so wie es sein soll, aber wenn ich nach einem Wort suchen lasse, was im Dokument ist, findet es nichts.

Wo / womit suchst du denn?
Hast du mal eine Beispieldatei für mich (PDF)?
 

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Ich Suche z.B. mit der Datei die ich Dir auch soeben hochgeladen habe, nach dem Wort "Dauerlast"
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Die Datei ist sehr verzerrt. Das erschwert natürlich eine gute Texterkennung.

Ist deine hochgeladene PDF-Datei die Ausgabedatei von synOCR?
Wie scannst du deine Dokumente?
Wird da bereits eine Texterkennung durchgeführt?
 
  • Like
Reaktionen: Penche1903

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Sorry das ich erst jetzt antworte, WE viel zu tun gehabt.

Ich scanne meine Dokument SwiftScan oder mit Quickscan und bei beiden ist die Texterkennung aktiviert

Ich habe jetzt ein neues Dokument gescannt, damit klappt es auch nicht.
Die Datei habe ich Dir beide Dateien aus unterschiedlichen Apps gescannt mal hochgeladen.

Vorher hatte ich in der App ein grünes Haken (OK Symbol)

Nun habe ich die permanente SanduhrBildschirmfoto 2021-11-14 um 12.30.57.png
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Default sind die Parameter -srd aktiv (synOCR ? Konfiguration ? 'OCR-Optionen und Umbenennung'). Sie stehen für:
s ? skip text (da deine PDFs bereits Text enthalten, wird keine erneute Texterkennung durchgeführt)
r ? rotate pages
d ? deskew

In deinem Fall würde ich mal die Texterkennung in deinen Apps deaktivieren, oder auf den Parameter -s verzichten und dafür --redo-ocr oder --force-ocr ergänzen. Also z.B. -rd --redo-ocr -l deu

Details findest du hier: https://ocrmypdf.readthedocs.io/en/latest/cookbook.html#redo-existing-ocr
 
  • Like
Reaktionen: Penche1903

JackOh

Benutzer
Mitglied seit
27. Mai 2015
Beiträge
188
Punkte für Reaktionen
3
Punkte
24
Ich bin hier einige Seiten durchgegangen und konnte leider keine Info finden, ob man synOCR nun auf DSM 7 installieren kann.
Wie ist hier der Stand?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ja. Allerdings unterstützt cphub derzeit nicht die Möglichkeit, beide Versionen gleichzeitig auszurollen. Daher läuft die DSM7-Version auf cphub noch als 'Beta'.

Ein paar Infos findest du noch HIER.
 
  • Like
Reaktionen: Penche1903

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Default sind die Parameter -srd aktiv (synOCR ? Konfiguration ? 'OCR-Optionen und Umbenennung'). Sie stehen für:
s ? skip text (da deine PDFs bereits Text enthalten, wird keine erneute Texterkennung durchgeführt)
r ? rotate pages
d ? deskew

In deinem Fall würde ich mal die Texterkennung in deinen Apps deaktivieren, oder auf den Parameter -s verzichten und dafür --redo-ocr oder --force-ocr ergänzen. Also z.B. -rd --redo-ocr -l deu

Details findest du hier: https://ocrmypdf.readthedocs.io/en/latest/cookbook.html#redo-existing-ocr
Sorry da ich wieder störe und nerve.
Ich habe bei beiden Scan-Apps die OCR Texterkennung deaktiviert.
Aber finde trotzdem nichts, wenn ich nach einem Wort suchen lasse.

wo ist da bei mir der Haken?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Sorry da ich wieder störe und nerve.
Du brauchst dich nicht entschuldigen :)

Lade bitte noch einmal ein PDF vor synOCR und nach synOCR zu mir hoch. Da gucke ich mal rein.

Hast du auch es schonmal mit den Parametern --redo-ocr oder --force-ocr versucht?
 
  • Like
Reaktionen: Penche1903

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
So die Datein sind hochgeladen.
Ich nutze zwei Apps deswegen immer zum testen erstmal doppelt.

Ich habe mir es viel einfacher gemacht. Ich habe die Parameter nicht umgestellt sondern die OCR Texterkennung deaktiviert ;)
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
So sieht das bei mir aus (am Beispiel des Begriffs "Datenbank"):

Bildschirmfoto 2021-11-15 um 13.36.49.png

Bildschirmfoto 2021-11-15 um 13.39.54.png

(ich hoffe, es ist ok, wenn ich die Bilder poste)
 

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
klar, das ist kein Problem. Deswegen hatte ich es ja auch eingescannt.
ich teste sogar auch nach dem Wort „Datenbank“
Aber bei mir wird nichts gefunden bzw. alles andere außer das eingescannte! :cry:
 

Anhänge

  • 689BDF6D-EC7B-4C19-B43C-3BE28F887CE2.jpeg
    689BDF6D-EC7B-4C19-B43C-3BE28F887CE2.jpeg
    285,7 KB · Aufrufe: 11
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Vielleicht ist es noch nicht indiziert worden.
Ich habe deine Dokumente nicht verändert und kann darin suchen ? synOCR funktioniert also bei dir. Öffne doch mal eine entsprechende Datei im PDF-Reader deiner Wahl und suche ein Wort (um das zu checken). Ich tippe darauf, dass dein Problem beim Indizieren liegt.
 
  • Like
Reaktionen: Penche1903

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Ich habe mit Drive App das gescannte Dokument geöffnet und nach dem Wort „Datenbank“ suchen lassen.
Er findet es 19 mal, aber richtig makiert wird es nicht.

C7D3E567-52A4-4EC1-8A6B-7F8192A72191.jpeg

Unter Systemsteuerung ist zwar der Indizierungsdienst, aber dieser ist doch nur für Medieninhalte wie Foto,Video oder Audio?
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Ja, das ist ein aktueller Bug. Wenn du das Dokument in einem neuen Fenster öffnest, werden die Fundstellen korrekt angezeigt.

Unter Systemsteuerung ist zwar der Indizierungsdienst, aber dieser ist doch nur für Medieninhalte wie Foto,Video oder Audio?
In Universal Search musst du deinen synOCR Ausgabeordner (wo halt deine PDFs liegen) hinzufügen und auch die Suche des Dateiinhalts aktivieren.

Bildschirmfoto 2021-11-15 um 16.23.44.png
 

Penche1903

Benutzer
Mitglied seit
07. Jan 2020
Beiträge
20
Punkte für Reaktionen
0
Punkte
1
Jetzt klappt es wunderbar. Daran lag es, das der Haken bei Dokument nicht gesetzt war.

Vielen lieben Dank für deine Mühe und Geduld.
Jetzt sollte man synOCR verfeinern bzw. so einrichten wie man es gerne hätte.
Denn ansonsten macht das synocr ja keinen Sinn, sonst könnte man ja auch die OCR Funktion in der Scanapp nutzen
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Das freut mich :)
Dann viel Erfolg damit!

sonst könnte man ja auch die OCR Funktion in der Scanapp nutzen
Wie du schon selbst erlebt hast, sind die Apps in der Erkennungsqualität nicht gerade umwerfend (besonders bei suboptimalen Scanvorlagen). Also selbst bei der reinen OCR-Umsetzung ist OCRmyPDF zu empfehlen.
 

vistalba

Benutzer
Mitglied seit
21. Dez 2020
Beiträge
12
Punkte für Reaktionen
0
Punkte
1
Ja. Allerdings unterstützt cphub derzeit nicht die Möglichkeit, beide Versionen gleichzeitig auszurollen. Daher läuft die DSM7-Version auf cphub noch als 'Beta'.

Ein paar Infos findest du noch HIER.

@geimist Wenn ich nun auf DSM7 upgrade, muss ich dann noch die Sachen im verlinkten Artikel manuell machen oder reicht es, wenn man die "Beta" Version installiert? Irgendwie blicke ich nicht mehr ganz durch. Evtl. wäre Mal ein ReadMe für DSM7 und synOCR ganz cool.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.563
Punkte für Reaktionen
1.389
Punkte
234
Wie ich da schon schrieb:
Es führt kein Weg daran vorbei, dass jeder User im DSM Aufgabenplaner einen manuellen Zeitplan / Skriptaufruf erstellt (das war ja auch bisher möglich - alte Zeitpläne in cron sollten weiter funktionieren, sind aber nicht mehr über die GUI editierbar). Dazu muss lediglich diese Zeile als Skript gestartet werden: /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh. Hier muss man unbedingt den user root auswählen!

Aufgrund der Einschränkung in DSM7 muss man halt eine Kröte schlucken.
(Ich bin froh, dass es überhaupt einen Weg gibt)
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat