synOCR synOCR - GUI fĂĽr OCRmyPDF

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte fĂĽr Reaktionen
2
Punkte
3
Ja 👍🏼 tut es. Vielen Dank. Reines Umbenennen ist schon mal viel besser in Bezug auf Ressourcen als Konvertieren. Hätte das einfach als Skript mit in den Task vom Aufgabenplaner für das Start Skript vornedran gesetzt.
Damit komme ich auf jeden Fall schon mal viel weiter. Vielen Dank nochmal
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
Z.B. so:
Bash:
# 1. *.jpg Dateien nach pdf umbenennen:
for file in /volume1/input/*.jpg; do mv "${file}" "${file%%.jpg}.pdf"; done
# 2. synOCR aufrufen:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Wichtig:
  • bereits vorhandene, gleichnamige Dokumente wĂĽrden ohne Nachfrage ĂĽberschrieben (dokument.jpg ĂĽberschreibt dokument.pdf, wenn dieses schon vorhanden ist)
  • Pfad anpassen
  • bei einem Pfad mit Leerzeichen, muss dieser in AnfĂĽhrungszeichen gesetzt werden, aber nicht das Sternchen
 
Zuletzt bearbeitet:

TheNightman

Benutzer
Mitglied seit
16. Feb 2021
Beiträge
3
Punkte fĂĽr Reaktionen
1
Punkte
59
Hallo, gibt es eigentlich schon Neuigkeiten zur Datumssuche von nicht numerischen Datumsangaben im Dokument?

Was meine ich damit?
z.B. bei Amazon Rechnungen steht das Rechnungsdatum immer mit dem Monatsnamen als Text (z.B. 30 Januar 2021)

Problem ist, dass die Rechnungsdaten derzeit nicht als solche erkannt werden und somit die automatische Umbenennung von z.B. Amazon Rechnungen nicht mit dem Rechnungsdatum funktioniert. Da ich ca. 70% Rechnungen von Amazon habe, bedeutet dies derzeit für mich echt viel händische Nacharbeit.

Mir ist bewußt, dass es dafür keine einfache Lösung gibt, vor allem wenn man verschiedene Abkürzungen und auch Landessprachen berücksichtigen will. Mir würde es erstmal in deutsch für die Amazon-Schreibweise reichen ;-) .

Falls ich irgendwie helfen kann, lass es mich wissen.

Danke
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
Etwas Neues erfährt man hier am ehesten dazu :)
Ich kann mir vorstellen, dass dir die deutsche Schreibweise ausreichen würde - das ergeht wahrscheinlich den meisten so. Deshalb überlege ich schon, ob ich das wenigstens für deutsche Monate per RegEx einbaue. Derzeit habe ich aber kaum Ressourcen zum Weiterentwickeln. Aber das wird wohl das nächste, was ich angehen werde.
 

Rotbart

Benutzer
Sehr erfahren
Mitglied seit
04. Jul 2021
Beiträge
1.810
Punkte fĂĽr Reaktionen
719
Punkte
134
Hallo
ich hab mich jetzt auchmal daran gemacht etwas Ordnung in mein Papierberg zu bringen und muss sagen, Stephan dein Programm ist top.
Ich arbeite mit einer Regeldatei und lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Bei mir wird aber immer nur "/volume1/../../§yocr4" erstellt.Das Datum wird aber aus den Dateien korrekt ausgelesen, die werden auch mit Datum umbenannt.Was muss ich machen damit ein Ordner mit dem jeweiligen Datum erstellt wird ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Ja, sollte …
Dieses Feature kam recht knapp vor dem letzten Release mit rein. Vielleicht habe ich da noch etwas ĂĽbersehen. Ich guck mir das mal an.
 

Favi

Benutzer
Mitglied seit
19. Okt 2015
Beiträge
59
Punkte fĂĽr Reaktionen
0
Punkte
6
Hallo,

ich versuche schon seit einiger Zeit, auch meine KontoauszĂĽge ĂĽber SynOCR automatisch benennen zu lassen. Leider geht das bei einer Bank nicht, die ihre AuszĂĽge als geschĂĽtzte PDFs ausgibt. Damit hatte ich mich schon abgefunden - logisch, dass geschĂĽtzte PDFs sich nicht auslesen lassen.

Allerdings habe ich nun für andere Aufgaben ein Programm in Betrieb, dass bei einem zufälligen Versuch ganz selbstverständlich eine ungeschützte OCR-Version eines solchen Dokuments erzeugt hat. Offenbar geht diese Software anders an die Sache als OCRmyPDF. Die Sicherheitseinstellungen des betroffenen Originaldokuments lassen Drucken und Kopieren von Text auch zu, nur andere Funktionen sind gesperrt. Für mich ist damit logisch, dass der Inhalt des Dokuments eigentlich schon ausgelesen werden kann (möglicherweise arbeitet meine Desktop-Software hier mit einem PDF-Drucker unter der Haube).

Grundsätzlich kommt man also an den Inhalt dieser PDFs. Vielleicht ja auch zum Taggen durch synOCR? Gibt es irgendeine Möglichkeit in synOCR, sich bei solchen Dokumenten nur auf das Auslesen des (les- und kopierbar vorhandenen) Texts zu konzentrieren? Also eine Funktion, die synOCR dazu bringt, sich bei geschützten Dokumenten nur auf das Taggen zu konzentrieren? Den OCRmyPDF-Schalter "-s" für PDF-Seiten mit schon vorhandenem Text habe ich schon gesetzt, das ändert allerdings nichts für meinen Fall.

Viele GrĂĽĂźe
Favi
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
Das ist grundsätzlich erstmal ein Problem von ocrmypdf. Ich müsste mal gucken, ob ich das irgendwie abfangen kann. Hättest du ein Log für mich und - wenn möglich - auch ein unverfängliches Dokument mit dem Problem? Vielleicht findest du ja Seiten, wo keine persönlichen Informationen enthalten sind, sondern lediglich Bankinformationen. Link für den Upload findest du in meiner Signatur.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
  • Like
Reaktionen: 206HDI

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
Damit wird das nix. Diese Funktion gibt es erst seit der Version 1.2.0, welche aber auf cphub noch nicht freigegeben wurde.
Manuellen Downloadlink findest du in meiner Signatur.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte fĂĽr Reaktionen
132
Punkte
63
kleiner Hinweis, habe nicht die ganzen 121 Seiten verfolgt. Evtl. schon bekannt. Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, ĂĽberflĂĽssige, veraltete Docker Volumes entstehen.
Via Synology GUI gibt es dazu KEINE Löschmöglichkeit.
Via dem Verwaltungs Container "Portainer" ist das aber möglich.
Dort auf Volumes gehen und auf "unused" filtern. Dann alle löschen.....

Vielleicht hilft es dem einen oder anderen.
Dieses "unused volume" thema gibt es übrigens bei allen Containern die erstellt, gelöscht, erstellt werden.....
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
151
Punkte fĂĽr Reaktionen
42
Punkte
28
Wie ist dir das denn aufgefallen? Bei mir war bisher noch nichts....
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte fĂĽr Reaktionen
132
Punkte
63
oh, dann müsste ich tiefer in erklärende Bastelkiste greifen. Hilft hier nicht wirklich. Kurz, mein Volume mit Docker ist nur 20 GB (nichts falsch, nicht bewerten, nehmt es hin), und hat normalerweise 90% frei. Nun war es 90% voll. Alles veraltete volumes von ocrmypdf.
Anbei ein Beispiel von einem anderen Server mit Docker und Portainer
 

Anhänge

  • Bildschirmfoto 2022-02-18 um 10.42.00.png
    Bildschirmfoto 2022-02-18 um 10.42.00.png
    106,2 KB · Aufrufe: 12

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, ĂĽberflĂĽssige, veraltete Docker Volumes entstehen.
Sicher, dass dies mit den temporären Containern zusammenhängt?
Ich vermute, dass es mit dem automatischen Imageupdate zusammenhängt. Dafür hab ich in der Version 1.2.0 eigentlich auch eine Bereinigung eingebaut.

Was ich da tue, findest du HIER.
 

Stationary

Benutzer
Sehr erfahren
Mitglied seit
13. Feb 2017
Beiträge
4.027
Punkte fĂĽr Reaktionen
1.339
Punkte
214
Kann man das zumindest ohne Portainer zu nutzen irgendwo sehen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.594
Punkte fĂĽr Reaktionen
1.439
Punkte
234
Als root auf der Shell docker images absetzen.
Hier findest du dann ggf. Images mit dem Tag <none>
 
  • Like
Reaktionen: Stationary

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte fĂĽr Reaktionen
132
Punkte
63
nö, automatische updates mache ICH nicht (kein watchtower), es sei den DU machst was :) Ja es waren bei mir 16 GB ocrmypdf volumes ..... habs gelöscht, sonst könnt ich noch Screenshot liefern.
Ah ja, sehe das Du in den Settings ein "aktuell halten" anbietest. Ja......
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat