synOCR synOCR - GUI für OCRmyPDF

Datenbunker

Benutzer
Mitglied seit
05. Sep 2018
Beiträge
27
Punkte für Reaktionen
2
Punkte
3
Gibt es eine Lösung um JPEG / PNG / TIFF / Bitmap Scans automatisch in ein PDF zu konvertieren und zu verarbeiten?

Die Microsoft Scanner App kann leider kein PDF.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Du kannst versuchen die Dateiendung auf .pdf zu ändern (das kann, muss aber nicht funktionieren). Gibt es denn für Windows keine alternative App?
 

stelschow

Benutzer
Mitglied seit
22. Mrz 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
Hi Stephan,

schicke ich ein PDF mit leerer Seite am Ende durch den Prozess, bekomme ich einen Fehler und das Dokument wird nicht processed:

? OCRmyPDF-LOG:
INFO - reading file from standard input
INFO - Start processing 2 pages concurrently
INFO - 2: page is facing ?, confidence 13.48 - no change
INFO - 1: page is facing ?, confidence 12.45 - no change
INFO - 3: page is facing ?, confidence 14.77 - rotation appears correct
INFO - 4: page is facing ?, confidence 16.16 - rotation appears correct
WARNING - 6: [tesseract] Warning. Invalid resolution 0 dpi. Using 70 instead.
INFO - 6: [tesseract] Too few characters. Skipping this page
ERROR - 6: [tesseract] Error during processing.
INFO - 6: page is facing ?, confidence 0.00 - no change
INFO - 5: page is facing ?, confidence 11.54 - no change
INFO - Optimize ratio: 1.00 savings: -0.1%
INFO - Image optimization did not improve the file - discarded
INFO - Output sent to stdout
? OCRmyPDF-LOG-END

siehe Seite 6.

Hast Du eine Idee?

Grüße, Sebastian
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234

stelschow

Benutzer
Mitglied seit
22. Mrz 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
falls es jemanden interessiert, ich habe auf das image geimist/ocrmypdf-polyglot:latest gewechelt, danach ging es.

Grüße
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
Dann vermute ich, dass es ein Bug im letzten :latest-Build ist. Du kannst dir auch über das Dockerpaket > Registrierung auch ein originales Stablebuild von OCRmyPDF holen, welches dir dann in der synOCR-GUI angeboten wird.
 

franzbertbua

Benutzer
Mitglied seit
21. Jan 2018
Beiträge
80
Punkte für Reaktionen
0
Punkte
6
Hallo

Ich habe da mal ne Frage:

Habe mir jetzt im Docker "jbarlow83-ocrmypdf1" geholt und installiert (sobald ich starte wird es kurz danach wieder angehalten)
dann hab ich mir noch synOCR geholt und installiert

Jetzt zu meinen Fragen:
-Ich möchte nur meinen gemeinsamen Ordner "public" scannen und die bestehenden PDFs durchsuchbar machen. In den Einstellungen steht aber was von Quell- und Zielverzeichnis, doch ich möchte eigentlich die Dateien so belassen wie sie sind nur dass sie quasi mit dem OCR-Filter neu abgespeichert werden.
-Kann mir jemand die notwendigen Einstellungen dazu schreiben (oder Screenshot) weil ich bin was den Docker und SSH angeht maximal interessierter Laie
-Wieso lässt sich der OCRmyPDF nur für wenige Sekunden starten und stoppt dann wieder?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
-Ich möchte nur meinen gemeinsamen Ordner "public" scannen und die bestehenden PDFs durchsuchbar machen. In den Einstellungen steht aber was von Quell- und Zielverzeichnis, doch ich möchte eigentlich die Dateien so belassen wie sie sind nur dass sie quasi mit dem OCR-Filter neu abgespeichert werden.
-Kann mir jemand die notwendigen Einstellungen dazu schreiben (oder Screenshot) weil ich bin was den Docker und SSH angeht maximal interessierter Laie …
Dann musst du ein Scanpräfix in deinem Scanner einstellen (z.B. SCAN_2020-03-25.pdf). In synOCR stellst du jetzt den Scanpräfix auf SCAN_ ein und aktivierst zusätzlich die Einstellung, dass der Scanpräfix entfernt werden soll. Eingangs- und Ausgabeordner musst du identisch (in deinem Fall) auf PUBLIC einstellen (auf vollständigen Pfad achten [z.B. /volume1/public]). Hintergrund ist der, dass du sonst auch bereits abgearbeitete Dokumente erneut bearbeiten würdest.
-Wieso lässt sich der OCRmyPDF nur für wenige Sekunden starten und stoppt dann wieder?
Das ist normal so - darum brauchst du dich nicht zu kümmern. Der Container wird immer nur temporär für jede PDF erstellt und anschließend wieder verworfen.
 

franzbertbua

Benutzer
Mitglied seit
21. Jan 2018
Beiträge
80
Punkte für Reaktionen
0
Punkte
6
verstehe ich das richtig:

-wenn quell- und zielordner gleich sind wird die datei überschrieben
-mit präfix müsste ich alle bestehenden dateien umbenennen um dies zu verwenden

sollte es dann korrekt sein dass ich einmal manuell alle dateien scanne
wenn dies gescchehen ist könnte den präfix einstellen auf z.B. SCAN_ und neue dateien immer mit SCAN_ abspeichern
dann werden nur koch dateien mit SCAN_ gescannt und nach abschluss der name SCAN_ entfernt?

sorry schon mal für die vielleicht dummen fragen
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
verstehe ich das richtig:

-wenn quell- und zielordner gleich sind wird die datei überschrieben …
Ja, bzw. werden die Originale in den Backupordner verschoben, sofern aktiviert

-mit präfix müsste ich alle bestehenden dateien umbenennen um dies zu verwenden
Einfach per Batch-Umbenennung überall ein Präfix davorsetzen

sollte es dann korrekt sein dass ich einmal manuell alle dateien scanne
wenn dies gescchehen ist könnte den präfix einstellen auf z.B. SCAN_ und neue dateien immer mit SCAN_ abspeichern
dann werden nur koch dateien mit SCAN_ gescannt und nach abschluss der name SCAN_ entfernt?
Sofern du es entsprechend einstellst. In diesem Fall sähe das so aus:

Bildschirmfoto 2020-03-25 um 13.34.07.png

sorry schon mal für die vielleicht dummen fragen
Gibt es nicht :eek:
 

franzbertbua

Benutzer
Mitglied seit
21. Jan 2018
Beiträge
80
Punkte für Reaktionen
0
Punkte
6
Ja, bzw. werden die Originale in den Backupordner verschoben, sofern aktiviert


Einfach per Batch-Umbenennung überall ein Präfix davorsetzen


Sofern du es entsprechend einstellst. In diesem Fall sähe das so aus:

Anhang anzeigen 51848


Gibt es nicht :eek:

jetzt bin ichs nochmal.

Habe jetzt wie angehängt die Einstellungen getätigt.
Das Programm findet auch die eine Testdatei mit "SCAN_test1.pdf" aber es wird weder das Suchpräfix entfernt,
noch wird die Datei per OCR umgewandelt.
Im Docker läuft auch der Container nicht mehr.

habe schon den gleichen Container "geimist/ocrmypdf-polyglot:latest" runtergeladen und den verwendet aber selbes ergebnis.
was kann ich da falsch gemacht haben? oder dauert das einfach ne weile?
Aktuell ist nur 1 Datei in dem ganzen gemeinsamen Ordner "Downloads"

EDIT: PROBLEM GELÖST - es waren 2 Profile aktiv

synocr.JPG

synocr1.JPG
 
Zuletzt bearbeitet:

franzbertbua

Benutzer
Mitglied seit
21. Jan 2018
Beiträge
80
Punkte für Reaktionen
0
Punkte
6
@geimist:

2 Punkte habe ich noch welche mir nicht ganz klar sind:

- Wenn ich jetzt meinen jetzigen Stand an PDF-Dateien bearbeiten möchte und den Präfix deaktiviere, benennt er meine gescannte Datei um von test1.pdf auf test1 (2).pdf.
-Kann es sein, dass nur die direkten Ordner und keine Unterordner durchsucht werden? Gibt es da eine Möglichkeit?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
- Wenn ich jetzt meinen jetzigen Stand an PDF-Dateien bearbeiten möchte und den Präfix deaktiviere, benennt er meine gescannte Datei um von test1.pdf auf test1 (2).pdf.
Korrekt - zu dem Zeitpunkt besteht ja das Original noch …
Um den 'Altbestand' abzuarbeiten, solltest du dir überlegen, einen temporären Ausgabeordner zu verwenden
-Kann es sein, dass nur die direkten Ordner und keine Unterordner durchsucht werden? Gibt es da eine Möglichkeit?
Ja, so ist es. Das macht im Rahmen des gewöhnlichen Workflows mit einem Scanner auch nicht viel Sinn, da ein Scanner ja auch nur einen Ausgabeordner verwendet. Für verschiedene Ordner kann man aber jeweils verschiedene Profile anlegen.
 

franzbertbua

Benutzer
Mitglied seit
21. Jan 2018
Beiträge
80
Punkte für Reaktionen
0
Punkte
6
naja ich habe das „problem“ dass mein all in one gerät schon recht alt ist und die funktion nicht besitzt direkt in ordner x per knopfdruck zu kopieren.
deshalb habe ich die letzten jahre alles mit system in ordner und unterordner abgelegt.

die in den jahren entstandenen pdfs in einen ausgabeordnder zu packen wäre wohl etwas was den aufwand nicht wert wäre weil in den jahren sind hunderte an pdfs entstanden.

mit verschiedenen profilen müsstw ich wohl wieder manuel wechseln da diese ja nicht zeitgleich aktiv sein können oder?
jnd für jeden ordner und unterordner ein profil anlegen wäre zwar machbar, spätestens aber wenn meine frau oder meine kids einen. neuen ordner anlegen ist das system wieder löchrig wenn ich das richtig verstanden habe...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.546
Punkte für Reaktionen
1.379
Punkte
234
… mit verschiedenen profilen müsstw ich wohl wieder manuel wechseln da diese ja nicht zeitgleich aktiv sein können oder? …
Doch, das können sie.

Für den Rest kann ich dir leider keine schnelle Alternative anbieten.
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
100
Punkte
134
Vl. mal den Inhalt eines Unterordners in temp. Ordner kopieren und wenn sie fertig abgearbeitet sind wieder retour in ihrem ursprünglichen Unterordner.
Wenn du so tief verschachteltes Ordner-System hast, würde ich das System ohnehin neu überdenken und ggf. aufbauen. Ist heutzutags nicht mehr "zeitgemäß" ;)
 

Zer0x

Benutzer
Mitglied seit
24. Sep 2018
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hallo Zusammen,

hier gibt es ja schon einige, die SynOCR nutzen. Es wäre cool wenn wir untereinander vielleicht mal unserer Tags teilen könnten. Mich interessiert einfach wie Ihr so vorgegangen seid.
Ich fange einfach mal an!

Anmerkung 2020-03-27 201655.png
 

Dufooy

Benutzer
Mitglied seit
03. Nov 2012
Beiträge
277
Punkte für Reaktionen
0
Punkte
16
Cool


Rich (BBCode):
Rechnung;Versicherung;amazon;huk24;Theater=Gehaltsabrechnung.Ralf;Bertelsmann=Gehaltsabrechnung.Mia;Hansemerkur=Versicherung;Bahn;DB;Jahresbescheinigung;Finanzamt;National Express=National.Express;airbnb;booking,com;

Denke dass ist noch ausbaufähig und dauert sicher noch eine weile bis alles erfasst ist. KI wäre irgendwie toll, die Tags selbständig lernt
 
Zuletzt bearbeitet von einem Moderator:

Dufooy

Benutzer
Mitglied seit
03. Nov 2012
Beiträge
277
Punkte für Reaktionen
0
Punkte
16
@geimist

kurze Frage, wenn ein pdf in dem Ordner liegt, skipt dann ocrmypdf dann dieses pdf was die Texterkennung angeht und macht dann nur Tag extraktion.
Dinge die aus dem Internet kommen, wie Rechnungen von Versandhäuser enthalten ja dann schon erkannten Text oder Textlayer.

Man kann ja die Einstellungen sichern, kann man die auch wieder zurückspielen?

Danke D.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat