synOCR synOCR - GUI für OCRmyPDF

geimist · 14. Mrz 2020

Dafür ist dann das andere Forum zuständig …

Datenbunker · 16. Mrz 2020

Gibt es eine Lösung um JPEG / PNG / TIFF / Bitmap Scans automatisch in ein PDF zu konvertieren und zu verarbeiten?

Die Microsoft Scanner App kann leider kein PDF.

geimist · 16. Mrz 2020

Du kannst versuchen die Dateiendung auf .pdf zu ändern (das kann, muss aber nicht funktionieren). Gibt es denn für Windows keine alternative App?

stelschow · 22. Mrz 2020

Hi Stephan,

schicke ich ein PDF mit leerer Seite am Ende durch den Prozess, bekomme ich einen Fehler und das Dokument wird nicht processed:

? OCRmyPDF-LOG:
INFO - reading file from standard input
INFO - Start processing 2 pages concurrently
INFO - 2: page is facing ?, confidence 13.48 - no change
INFO - 1: page is facing ?, confidence 12.45 - no change
INFO - 3: page is facing ?, confidence 14.77 - rotation appears correct
INFO - 4: page is facing ?, confidence 16.16 - rotation appears correct
WARNING - 6: [tesseract] Warning. Invalid resolution 0 dpi. Using 70 instead.
INFO - 6: [tesseract] Too few characters. Skipping this page
ERROR - 6: [tesseract] Error during processing.
INFO - 6: page is facing ?, confidence 0.00 - no change
INFO - 5: page is facing ?, confidence 11.54 - no change
INFO - Optimize ratio: 1.00 savings: -0.1%
INFO - Image optimization did not improve the file - discarded
INFO - Output sent to stdout
? OCRmyPDF-LOG-END

siehe Seite 6.

Hast Du eine Idee?

Grüße, Sebastian

geimist · 22. Mrz 2020

Sorry, nein. Da habe ich leider keine Idee.
Bitte frage mal direkt bei OCRmyPDF-Entwickler nach …

stelschow · 22. Mrz 2020

falls es jemanden interessiert, ich habe auf das image geimist/ocrmypdf-polyglot:latest gewechelt, danach ging es.

Grüße

geimist · 23. Mrz 2020

Dann vermute ich, dass es ein Bug im letzten :latest-Build ist. Du kannst dir auch über das Dockerpaket > Registrierung auch ein originales Stablebuild von OCRmyPDF holen, welches dir dann in der synOCR-GUI angeboten wird.

franzbertbua · 25. Mrz 2020

Hallo

Ich habe da mal ne Frage:

Habe mir jetzt im Docker "jbarlow83-ocrmypdf1" geholt und installiert (sobald ich starte wird es kurz danach wieder angehalten)
dann hab ich mir noch synOCR geholt und installiert

Jetzt zu meinen Fragen:
-Ich möchte nur meinen gemeinsamen Ordner "public" scannen und die bestehenden PDFs durchsuchbar machen. In den Einstellungen steht aber was von Quell- und Zielverzeichnis, doch ich möchte eigentlich die Dateien so belassen wie sie sind nur dass sie quasi mit dem OCR-Filter neu abgespeichert werden.
-Kann mir jemand die notwendigen Einstellungen dazu schreiben (oder Screenshot) weil ich bin was den Docker und SSH angeht maximal interessierter Laie
-Wieso lässt sich der OCRmyPDF nur für wenige Sekunden starten und stoppt dann wieder?

geimist · 25. Mrz 2020

franzbertbua schrieb:
-Ich möchte nur meinen gemeinsamen Ordner "public" scannen und die bestehenden PDFs durchsuchbar machen. In den Einstellungen steht aber was von Quell- und Zielverzeichnis, doch ich möchte eigentlich die Dateien so belassen wie sie sind nur dass sie quasi mit dem OCR-Filter neu abgespeichert werden.
-Kann mir jemand die notwendigen Einstellungen dazu schreiben (oder Screenshot) weil ich bin was den Docker und SSH angeht maximal interessierter Laie …

Dann musst du ein Scanpräfix in deinem Scanner einstellen (z.B. SCAN_2020-03-25.pdf). In synOCR stellst du jetzt den Scanpräfix auf SCAN_ ein und aktivierst zusätzlich die Einstellung, dass der Scanpräfix entfernt werden soll. Eingangs- und Ausgabeordner musst du identisch (in deinem Fall) auf PUBLIC einstellen (auf vollständigen Pfad achten [z.B. /volume1/public]). Hintergrund ist der, dass du sonst auch bereits abgearbeitete Dokumente erneut bearbeiten würdest.

-Wieso lässt sich der OCRmyPDF nur für wenige Sekunden starten und stoppt dann wieder?

Das ist normal so - darum brauchst du dich nicht zu kümmern. Der Container wird immer nur temporär für jede PDF erstellt und anschließend wieder verworfen.

franzbertbua · 25. Mrz 2020

verstehe ich das richtig:

-wenn quell- und zielordner gleich sind wird die datei überschrieben
-mit präfix müsste ich alle bestehenden dateien umbenennen um dies zu verwenden

sollte es dann korrekt sein dass ich einmal manuell alle dateien scanne
wenn dies gescchehen ist könnte den präfix einstellen auf z.B. SCAN_ und neue dateien immer mit SCAN_ abspeichern
dann werden nur koch dateien mit SCAN_ gescannt und nach abschluss der name SCAN_ entfernt?

sorry schon mal für die vielleicht dummen fragen

geimist · 25. Mrz 2020

franzbertbua schrieb:
verstehe ich das richtig:

-wenn quell- und zielordner gleich sind wird die datei überschrieben …

Ja, bzw. werden die Originale in den Backupordner verschoben, sofern aktiviert

-mit präfix müsste ich alle bestehenden dateien umbenennen um dies zu verwenden

Einfach per Batch-Umbenennung überall ein Präfix davorsetzen

sollte es dann korrekt sein dass ich einmal manuell alle dateien scanne
wenn dies gescchehen ist könnte den präfix einstellen auf z.B. SCAN_ und neue dateien immer mit SCAN_ abspeichern
dann werden nur koch dateien mit SCAN_ gescannt und nach abschluss der name SCAN_ entfernt?

Sofern du es entsprechend einstellst. In diesem Fall sähe das so aus:

Bildschirmfoto 2020-03-25 um 13.34.07.png

sorry schon mal für die vielleicht dummen fragen

Gibt es nicht

franzbertbua · 25. Mrz 2020

geimist schrieb:
Ja, bzw. werden die Originale in den Backupordner verschoben, sofern aktiviert

Einfach per Batch-Umbenennung überall ein Präfix davorsetzen

Sofern du es entsprechend einstellst. In diesem Fall sähe das so aus:

Anhang anzeigen 51848

Gibt es nicht

jetzt bin ichs nochmal.

Habe jetzt wie angehängt die Einstellungen getätigt.
Das Programm findet auch die eine Testdatei mit "SCAN_test1.pdf" aber es wird weder das Suchpräfix entfernt,
noch wird die Datei per OCR umgewandelt.
Im Docker läuft auch der Container nicht mehr.

habe schon den gleichen Container "geimist/ocrmypdf-polyglot:latest" runtergeladen und den verwendet aber selbes ergebnis.
was kann ich da falsch gemacht haben? oder dauert das einfach ne weile?
Aktuell ist nur 1 Datei in dem ganzen gemeinsamen Ordner "Downloads"

EDIT: PROBLEM GELÖST - es waren 2 Profile aktiv

franzbertbua · 25. Mrz 2020

@geimist:

2 Punkte habe ich noch welche mir nicht ganz klar sind:

- Wenn ich jetzt meinen jetzigen Stand an PDF-Dateien bearbeiten möchte und den Präfix deaktiviere, benennt er meine gescannte Datei um von test1.pdf auf test1 (2).pdf.
-Kann es sein, dass nur die direkten Ordner und keine Unterordner durchsucht werden? Gibt es da eine Möglichkeit?

geimist · 25. Mrz 2020

franzbertbua schrieb:
- Wenn ich jetzt meinen jetzigen Stand an PDF-Dateien bearbeiten möchte und den Präfix deaktiviere, benennt er meine gescannte Datei um von test1.pdf auf test1 (2).pdf.

Korrekt - zu dem Zeitpunkt besteht ja das Original noch …
Um den 'Altbestand' abzuarbeiten, solltest du dir überlegen, einen temporären Ausgabeordner zu verwenden

-Kann es sein, dass nur die direkten Ordner und keine Unterordner durchsucht werden? Gibt es da eine Möglichkeit?

Ja, so ist es. Das macht im Rahmen des gewöhnlichen Workflows mit einem Scanner auch nicht viel Sinn, da ein Scanner ja auch nur einen Ausgabeordner verwendet. Für verschiedene Ordner kann man aber jeweils verschiedene Profile anlegen.

franzbertbua · 25. Mrz 2020

naja ich habe das „problem“ dass mein all in one gerät schon recht alt ist und die funktion nicht besitzt direkt in ordner x per knopfdruck zu kopieren.
deshalb habe ich die letzten jahre alles mit system in ordner und unterordner abgelegt.

die in den jahren entstandenen pdfs in einen ausgabeordnder zu packen wäre wohl etwas was den aufwand nicht wert wäre weil in den jahren sind hunderte an pdfs entstanden.

mit verschiedenen profilen müsstw ich wohl wieder manuel wechseln da diese ja nicht zeitgleich aktiv sein können oder?
jnd für jeden ordner und unterordner ein profil anlegen wäre zwar machbar, spätestens aber wenn meine frau oder meine kids einen. neuen ordner anlegen ist das system wieder löchrig wenn ich das richtig verstanden habe...

geimist · 25. Mrz 2020

… mit verschiedenen profilen müsstw ich wohl wieder manuel wechseln da diese ja nicht zeitgleich aktiv sein können oder? …

Doch, das können sie.

Für den Rest kann ich dir leider keine schnelle Alternative anbieten.

TeXniXo · 26. Mrz 2020

Vl. mal den Inhalt eines Unterordners in temp. Ordner kopieren und wenn sie fertig abgearbeitet sind wieder retour in ihrem ursprünglichen Unterordner.
Wenn du so tief verschachteltes Ordner-System hast, würde ich das System ohnehin neu überdenken und ggf. aufbauen. Ist heutzutags nicht mehr "zeitgemäß"

Zer0x · 27. Mrz 2020

Hallo Zusammen,

hier gibt es ja schon einige, die SynOCR nutzen. Es wäre cool wenn wir untereinander vielleicht mal unserer Tags teilen könnten. Mich interessiert einfach wie Ihr so vorgegangen seid.
Ich fange einfach mal an!

Dufooy · 28. Mrz 2020

Cool

Rich (BBCode):

Rechnung;Versicherung;amazon;huk24;Theater=Gehaltsabrechnung.Ralf;Bertelsmann=Gehaltsabrechnung.Mia;Hansemerkur=Versicherung;Bahn;DB;Jahresbescheinigung;Finanzamt;National Express=National.Express;airbnb;booking,com;

Denke dass ist noch ausbaufähig und dauert sicher noch eine weile bis alles erfasst ist. KI wäre irgendwie toll, die Tags selbständig lernt

Dufooy · 28. Mrz 2020

@geimist

kurze Frage, wenn ein pdf in dem Ordner liegt, skipt dann ocrmypdf dann dieses pdf was die Texterkennung angeht und macht dann nur Tag extraktion.
Dinge die aus dem Internet kommen, wie Rechnungen von Versandhäuser enthalten ja dann schon erkannten Text oder Textlayer.

Man kann ja die Einstellungen sichern, kann man die auch wieder zurückspielen?

Danke D.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat