synOCR synOCR - GUI für OCRmyPDF

dsmax

Benutzer
Mitglied seit
27. Dez 2010
Beiträge
54
Punkte für Reaktionen
2
Punkte
8
Hallo zusammen,
ich möchte mich mal ganz herzlich bei Stephan und Tommes für die großartige Arbeit bedanken. Ich nutze das Paket schon seit der ersten Stunde und habe meinen kompletten Workflow zur Ablage von Dokumenten damit erheblich vereinfachen können. Also nochmals vielen Dank!

Ich würde jetzt auch gerne die Beta für DSM 7 testen, aber leider kann ich das Paket nicht downloaden -> Server nicht erreichbar.
Gibt es noch eine andere Downloadmöglichkeit?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
Ich würde jetzt auch gerne die Beta für DSM 7 testen, aber leider kann ich das Paket nicht downloaden -> Server nicht erreichbar.
Das BETA-Paket wartet auf cphub.net auf Freischaltung.
Auf meinem Server einfach immer mal probieren - mein Domainhoster hat heute DNS-Schluckauf.

@astrofrank
Wenn es eine Neuinstallation ist, könntest du einfach mal deinstallieren und neu installieren.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
@Tom1000
Ich würde aber noch präzisieren: ich habe eine Scan von meinem Drucker (ohne OCR) auf die Syn gemacht. Suche ich jetzt probeweise nach einem Begriff in dem Dokument, passiert nichts, genauer gesagt taucht der Begriff noch in einem anderen Dokument auf, das völlig korrekt angezeigt wird.

Öffne ich das besagte Dokument, in dem der Begriff nicht gefunden wird, mit Adobe reader, findet Adobe reader den begriff korrekt. D.h. die OCR von SynOCR ist korrekt durchgelaufen. Aber was passiert bei SynOCR sonst noch beim Erkennen? Wird da ein "Begriffsindex" angelegt?Wenn ja, wie kann man das beeinflussen?

Wie gesagt, als ich SynOCR zum ersten Mal installiert hatte, funktionierte alles tadellos. Irgendwas ist aber passiert (und ich habe nichts geändert)...
Zur Funktionsweise:
  1. Zunächst wird via Docker-OCRmyPDF die Texterkennung durchgeführt.
  2. Mit pdftotext wird der erkannte Textinhalt extrahiert (je nach eingestelltem Suchbereich die erste oder alle Seiten)
  3. Anhand der Regeln wird nach Übereinstimmungen gesucht
  4. Umbenennung ect. …
Du hattest ja 3 Logfiles hochgeladen. Vielleicht kannst du noch präzisieren, welches Dokument das gescannte betrifft.
 

dsmax

Benutzer
Mitglied seit
27. Dez 2010
Beiträge
54
Punkte für Reaktionen
2
Punkte
8
Hallo Stephan,
vielen Dank für die Info. Download hat jetzt geklappt!
 

astrofrank

Benutzer
Mitglied seit
03. Jul 2021
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Ich habe das Paket schon mehrfach neu installiert, aber das Verhalten hat sich bisher nicht geändert. Habt Ihr schon eine Idee, wie ich eine bestehende Installation update? Einfach "drüberinstallieren" oder erst deinstallieren und dann die Beta neu installieren?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
Einfach "drüberinstallieren" oder erst deinstallieren und dann die Beta neu installieren?
Prinzipiell kann man einfach "drüberinstallieren". Dann wird die bestehende Konfiguration (eine sqlite-DB und eine kleine Zählerdatei) behalten. Bei deinem Problem würde ich ein deinstallieren und neu installieren empfehlen. Das hast du ja wohl bereits gemacht.

Hast du bereits auf der Konfigurationsseite ein Profil angelegt, bzw. vervollständigt?
Evt. mal zum Test ein weiteres erstellen …
 

astrofrank

Benutzer
Mitglied seit
03. Jul 2021
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
in der Produktion läuft ein "default" Profil. Morgen soll das NAS auf DSM 7 umgestellt werden. Dann wird synOCR erst mal nicht mehr laufen und ich frage mich, wie ich die Beta am ehesten ans Laufen bekomme
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
Hast du bereits auf der Konfigurationsseite ein Profil angelegt, bzw. vervollständigt?
Evt. mal zum Test ein weiteres erstellen …
Hast du das mal gemacht?

Als weiteres:
  1. Du kannst auf der Konfigurationsseite die Datenbank herunterladen. Die kannst du mir gern mal schicken. Die Meldung sagt, dass etwas in der DB nicht stimmt
  2. du kannst auch gerne mal dieses Skript abfeuern (das würde ich zunächst nicht als root versuchen). Es wäre interessant, ob es etwas zu tun findet
    /usr/syno/synoman/webman/3rdparty/synOCR/upgradeconfig.sh
  3. vielleicht sieht es ja auf dem Produktivsystem schon wieder viel besser aus …
 

Tom1000

Benutzer
Mitglied seit
01. Jul 2021
Beiträge
21
Punkte für Reaktionen
3
Punkte
3
@Tom1000

Zur Funktionsweise:
  1. Zunächst wird via Docker-OCRmyPDF die Texterkennung durchgeführt.
  2. Mit pdftotext wird der erkannte Textinhalt extrahiert (je nach eingestelltem Suchbereich die erste oder alle Seiten)
  3. Anhand der Regeln wird nach Übereinstimmungen gesucht
  4. Umbenennung ect. …
Du hattest ja 3 Logfiles hochgeladen. Vielleicht kannst du noch präzisieren, welches Dokument das gescannte betrifft.
Es geht um das Logfile vom 3.7. Eines der Dokumente war das 20210702_224417_Fernuni_2_007496.pdf. (es gibt auch noch den teil 1 vorher...)

Ich habe probeweise nach dem Begriff "Czochralski" gesucht. Er wurde nicht gefunden. Öffne ich das OCRte Dokument in Adobe, wird der begriff gefunden. Ich weiss nicht, was da schief läuft. Wenn ich in allen Dokumente die ich habe durchlaufen lasse, einfach nach der "6450" suche, wird, völlig korrekt, die Serviceanleitung für meinen Geschirrspüler gefunden.

Also eigentlich alles perfekt, aber ich muss mir halt mit der Suchfunktion sicher sein können...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
Standardmäßig wird nur auf der 1. Seite nach Tags und Datum gesucht. Alternativ kann man auch im gesamten Dokument suchen lassen. Den entsprechenden Schalter findest du auf der Konfigurationsseite.

Außerdem sehe ich im Log den Vermerk no tags defined, synOCR hat also keine Kriterien vorliegen, nach denen gesucht werden soll.

Oder erkenne ich das Problem noch nicht?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
in der Produktion läuft ein "default" Profil. Morgen soll das NAS auf DSM 7 umgestellt werden. Dann wird synOCR erst mal nicht mehr laufen und ich frage mich, wie ich die Beta am ehesten ans Laufen bekomme
Deine DB ist absolut leer. Dementsprechend hast du noch keine Konfiguration angelegt/geändert oder es schlägt fehl. Was ist der Fall?

Ich bin optimistisch, dass die bestehende DB in deiner Produktivumgebung weiterhin funktioniert …
 

astrofrank

Benutzer
Mitglied seit
03. Jul 2021
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Hast du das mal gemacht?

Als weiteres:
  1. Du kannst auf der Konfigurationsseite die Datenbank herunterladen. Die kannst du mir gern mal schicken. Die Meldung sagt, dass etwas in der DB nicht stimmt
  2. du kannst auch gerne mal dieses Skript abfeuern (das würde ich zunächst nicht als root versuchen). Es wäre interessant, ob es etwas zu tun findet
    /usr/syno/synoman/webman/3rdparty/synOCR/upgradeconfig.sh
  3. vielleicht sieht es ja auf dem Produktivsystem schon wieder viel besser aus …
1. habe ich hochgeladen
2. ohne root:
Error: attempt to write a readonly database
Error: attempt to write a readonly database
Error: no such table: system
Error: no such table: config
/usr/syno/synoman/webman/3rdparty/synOCR/upgradeconfig.sh: line 33: [: -eq: unary operator expected
Error: no such table: system
/usr/syno/synoman/webman/3rdparty/synOCR/upgradeconfig.sh: line 55: [: -eq: unary operator expected
Error: no such table: system
/usr/syno/synoman/webman/3rdparty/synOCR/upgradeconfig.sh: line 94: [: -eq: unary operator expected
Error: no such table: system
/usr/syno/synoman/webman/3rdparty/synOCR/upgradeconfig.sh: line 123: [: -eq: unary operator expected

mit root:
Error: duplicate column name: filedate
Error: duplicate column name: tagsymbol

? the default profile was created
DB-Upgrade successfully processed (v1 ? v2)
DB-Upgrade successfully processed (v2 ? v3)
DB-Upgrade successfully processed (v3 ? v4)

zumindest wird jetzt das "default" Profil in der Konfiguration angezeigt. Allerdings kann ich es nicht ändern. Beim Speichern wird zwar "erfolgreich gespeichert" angezeigt, aber bei der neuerlichen Anzeige stehen nur die default-Werte drin. Sieht für mich so aus, als wenn die GUI noch nicht die korrekten Rechte hätte.
 

Tom1000

Benutzer
Mitglied seit
01. Jul 2021
Beiträge
21
Punkte für Reaktionen
3
Punkte
3
Standardmäßig wird nur auf der 1. Seite nach Tags und Datum gesucht. Alternativ kann man auch im gesamten Dokument suchen lassen. Den entsprechenden Schalter findest du auf der Konfigurationsseite.

Außerdem sehe ich im Log den Vermerk no tags defined, synOCR hat also keine Kriterien vorliegen, nach denen gesucht werden soll.

Oder erkenne ich das Problem noch nicht?
Ah... ich glaube jetzt klingelts bei mir. Vermutlich Fehlinterpretation meinerseits...
 

astrofrank

Benutzer
Mitglied seit
03. Jul 2021
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Deine DB ist absolut leer. Dementsprechend hast du noch keine Konfiguration angelegt/geändert oder es schlägt fehl. Was ist der Fall?

Ich bin optimistisch, dass die bestehende DB in deiner Produktivumgebung weiterhin funktioniert

danke für die Kontrolle. Das habe ich mir schon gedacht. Ich vermute, dass die Paketinstallation auf Grund fehlender Rechte nicht alle Schritte korrekt durchführt. Daher die leere Datenbank, das fehlende default Profil und auch die mangelnden Rechte der GUI. Man sieht ja, dass das Upgrade-Script unter root das default Profil anlegt.
Was soll ich morgen machen? Das Paket deinstallieren und die Beta-Version neu installieren? Oder direkt das Beta-Paket installieren?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
Was soll ich morgen machen? Das Paket deinstallieren und die Beta-Version neu installieren? Oder direkt das Beta-Paket installieren?
Direkt installieren, damit deine bisherige DB übernommen wird. Du kannst sie aber auch jetzt schonmal zur Sicherung herunterladen.
 

Tom1000

Benutzer
Mitglied seit
01. Jul 2021
Beiträge
21
Punkte für Reaktionen
3
Punkte
3
Standardmäßig wird nur auf der 1. Seite nach Tags und Datum gesucht. Alternativ kann man auch im gesamten Dokument suchen lassen. Den entsprechenden Schalter findest du auf der Konfigurationsseite.

Außerdem sehe ich im Log den Vermerk no tags defined, synOCR hat also keine Kriterien vorliegen, nach denen gesucht werden soll.

Oder erkenne ich das Problem noch nicht?
Hi Stephan,

habe mein Problem gelöst. Es war nicht auf "SynOCR"-Seite sondern auf "Synology Drive"...

System findet in den pdf's jetzt das was es soll, nachdem ich neu indexiert/initiakisiert habe.

Nun kämpfe ich mit dem DSM7 /SynOCR Problem... (wieso mach ich immer ein Upgrade, wenns eigentlich nicht nötig ist... Never change a running system)

Bei Problemen melde ich mich... Danke für Deine Hilfe.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.567
Punkte für Reaktionen
1.392
Punkte
234
Nun kämpfe ich mit dem DSM7 /SynOCR Problem...
Meinst du die Fehlermeldung von Docker?
Eigentlich sollte es dennoch laufen (ins Besondere über den Aufgabenplaner).

Oder was läuft nicht?
 

astrofrank

Benutzer
Mitglied seit
03. Jul 2021
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Direkt installieren, damit deine bisherige DB übernommen wird. Du kannst sie aber auch jetzt schonmal zur Sicherung herunterladen.
Danke noch einmal. Ich habe es heute tatsächlich einfach über die bestehende Installation installiert. Das default Profil wurde richtig angezeigt (ich habe allerdings keinerlei Änderungen versucht :)), der Job im Aufgabenplaner läuft ebenfalls und PDF-Dokumente werden bisher verarbeitet.
Toll, dass das geklappt hat!
 
  • Like
Reaktionen: geimist

Tom1000

Benutzer
Mitglied seit
01. Jul 2021
Beiträge
21
Punkte für Reaktionen
3
Punkte
3
Moin, jetzt hat sich noch eine synOCR Frage ergeben:

Ich bekomme teilweise ein Dokumentendatum mit Jahr 2060... Wie kommt synOCR denn darauf??):unsure:

Beste Grüsse und weiter so... (y)(y)
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat