synOCR synOCR - GUI für OCRmyPDF

Ja 👍🏼 tut es. Vielen Dank. Reines Umbenennen ist schon mal viel besser in Bezug auf Ressourcen als Konvertieren. Hätte das einfach als Skript mit in den Task vom Aufgabenplaner für das Start Skript vornedran gesetzt.
Damit komme ich auf jeden Fall schon mal viel weiter. Vielen Dank nochmal
 
Zuletzt bearbeitet von einem Moderator:
Z.B. so:
Bash:
# 1. *.jpg Dateien nach pdf umbenennen:
for file in /volume1/input/*.jpg; do mv "${file}" "${file%%.jpg}.pdf"; done
# 2. synOCR aufrufen:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Wichtig:
  • bereits vorhandene, gleichnamige Dokumente würden ohne Nachfrage überschrieben (dokument.jpg überschreibt dokument.pdf, wenn dieses schon vorhanden ist)
  • Pfad anpassen
  • bei einem Pfad mit Leerzeichen, muss dieser in Anführungszeichen gesetzt werden, aber nicht das Sternchen
 
Zuletzt bearbeitet:
Hallo, gibt es eigentlich schon Neuigkeiten zur Datumssuche von nicht numerischen Datumsangaben im Dokument?

Was meine ich damit?
z.B. bei Amazon Rechnungen steht das Rechnungsdatum immer mit dem Monatsnamen als Text (z.B. 30 Januar 2021)

Problem ist, dass die Rechnungsdaten derzeit nicht als solche erkannt werden und somit die automatische Umbenennung von z.B. Amazon Rechnungen nicht mit dem Rechnungsdatum funktioniert. Da ich ca. 70% Rechnungen von Amazon habe, bedeutet dies derzeit für mich echt viel händische Nacharbeit.

Mir ist bewußt, dass es dafür keine einfache Lösung gibt, vor allem wenn man verschiedene Abkürzungen und auch Landessprachen berücksichtigen will. Mir würde es erstmal in deutsch für die Amazon-Schreibweise reichen ;-) .

Falls ich irgendwie helfen kann, lass es mich wissen.

Danke
 
Etwas Neues erfährt man hier am ehesten dazu :)
Ich kann mir vorstellen, dass dir die deutsche Schreibweise ausreichen würde - das ergeht wahrscheinlich den meisten so. Deshalb überlege ich schon, ob ich das wenigstens für deutsche Monate per RegEx einbaue. Derzeit habe ich aber kaum Ressourcen zum Weiterentwickeln. Aber das wird wohl das nächste, was ich angehen werde.
 
Hallo
ich hab mich jetzt auchmal daran gemacht etwas Ordnung in mein Papierberg zu bringen und muss sagen, Stephan dein Programm ist top.
Ich arbeite mit einer Regeldatei und lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Bei mir wird aber immer nur "/volume1/../../§yocr4" erstellt.Das Datum wird aber aus den Dateien korrekt ausgelesen, die werden auch mit Datum umbenannt.Was muss ich machen damit ein Ordner mit dem jeweiligen Datum erstellt wird ?
 
lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Ja, sollte …
Dieses Feature kam recht knapp vor dem letzten Release mit rein. Vielleicht habe ich da noch etwas übersehen. Ich guck mir das mal an.
 
Ok, danke schonmal
 
Hallo,

ich versuche schon seit einiger Zeit, auch meine Kontoauszüge über SynOCR automatisch benennen zu lassen. Leider geht das bei einer Bank nicht, die ihre Auszüge als geschützte PDFs ausgibt. Damit hatte ich mich schon abgefunden - logisch, dass geschützte PDFs sich nicht auslesen lassen.

Allerdings habe ich nun für andere Aufgaben ein Programm in Betrieb, dass bei einem zufälligen Versuch ganz selbstverständlich eine ungeschützte OCR-Version eines solchen Dokuments erzeugt hat. Offenbar geht diese Software anders an die Sache als OCRmyPDF. Die Sicherheitseinstellungen des betroffenen Originaldokuments lassen Drucken und Kopieren von Text auch zu, nur andere Funktionen sind gesperrt. Für mich ist damit logisch, dass der Inhalt des Dokuments eigentlich schon ausgelesen werden kann (möglicherweise arbeitet meine Desktop-Software hier mit einem PDF-Drucker unter der Haube).

Grundsätzlich kommt man also an den Inhalt dieser PDFs. Vielleicht ja auch zum Taggen durch synOCR? Gibt es irgendeine Möglichkeit in synOCR, sich bei solchen Dokumenten nur auf das Auslesen des (les- und kopierbar vorhandenen) Texts zu konzentrieren? Also eine Funktion, die synOCR dazu bringt, sich bei geschützten Dokumenten nur auf das Taggen zu konzentrieren? Den OCRmyPDF-Schalter "-s" für PDF-Seiten mit schon vorhandenem Text habe ich schon gesetzt, das ändert allerdings nichts für meinen Fall.

Viele Grüße
Favi
 
Das ist grundsätzlich erstmal ein Problem von ocrmypdf. Ich müsste mal gucken, ob ich das irgendwie abfangen kann. Hättest du ein Log für mich und - wenn möglich - auch ein unverfängliches Dokument mit dem Problem? Vielleicht findest du ja Seiten, wo keine persönlichen Informationen enthalten sind, sondern lediglich Bankinformationen. Link für den Upload findest du in meiner Signatur.
 
  • Like
Reaktionen: 206HDI
1.1.902
 
Damit wird das nix. Diese Funktion gibt es erst seit der Version 1.2.0, welche aber auf cphub noch nicht freigegeben wurde.
Manuellen Downloadlink findest du in meiner Signatur.
 
aha, ok danke
 
kleiner Hinweis, habe nicht die ganzen 121 Seiten verfolgt. Evtl. schon bekannt. Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, überflüssige, veraltete Docker Volumes entstehen.
Via Synology GUI gibt es dazu KEINE Löschmöglichkeit.
Via dem Verwaltungs Container "Portainer" ist das aber möglich.
Dort auf Volumes gehen und auf "unused" filtern. Dann alle löschen.....

Vielleicht hilft es dem einen oder anderen.
Dieses "unused volume" thema gibt es übrigens bei allen Containern die erstellt, gelöscht, erstellt werden.....
 
Wie ist dir das denn aufgefallen? Bei mir war bisher noch nichts....
 
oh, dann müsste ich tiefer in erklärende Bastelkiste greifen. Hilft hier nicht wirklich. Kurz, mein Volume mit Docker ist nur 20 GB (nichts falsch, nicht bewerten, nehmt es hin), und hat normalerweise 90% frei. Nun war es 90% voll. Alles veraltete volumes von ocrmypdf.
Anbei ein Beispiel von einem anderen Server mit Docker und Portainer
 

Anhänge

  • Bildschirmfoto 2022-02-18 um 10.42.00.png
    Bildschirmfoto 2022-02-18 um 10.42.00.png
    106,2 KB · Aufrufe: 12
Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, überflüssige, veraltete Docker Volumes entstehen.
Sicher, dass dies mit den temporären Containern zusammenhängt?
Ich vermute, dass es mit dem automatischen Imageupdate zusammenhängt. Dafür hab ich in der Version 1.2.0 eigentlich auch eine Bereinigung eingebaut.

Was ich da tue, findest du HIER.
 
Kann man das zumindest ohne Portainer zu nutzen irgendwo sehen?
 
Als root auf der Shell docker images absetzen.
Hier findest du dann ggf. Images mit dem Tag <none>
 
  • Like
Reaktionen: Stationary
nö, automatische updates mache ICH nicht (kein watchtower), es sei den DU machst was :) Ja es waren bei mir 16 GB ocrmypdf volumes ..... habs gelöscht, sonst könnt ich noch Screenshot liefern.
Ah ja, sehe das Du in den Settings ein "aktuell halten" anbietest. Ja......
 
Zuletzt bearbeitet:
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat