synOCR synOCR - GUI für OCRmyPDF

guidovg

Benutzer
Contributor
Mitglied seit
26. Nov 2011
Beiträge
149
Punkte für Reaktionen
51
Punkte
34
Moin,

das hat funktioniert. Danke für den Tipp!
 
  • Like
Reaktionen: Struppix und geimist

Ghost108

Benutzer
Mitglied seit
27. Jun 2015
Beiträge
1.268
Punkte für Reaktionen
74
Punkte
68
Wie kann man leere Seite entfernen lassen?
Macht man das mit dem Parameter --remove-background ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Das geht derzeit noch nicht uns ist auch nicht so trivial, wie es klingen mag.
Idealerweise macht das der Scanner.
 
  • Like
Reaktionen: Struppix

Ghost108

Benutzer
Mitglied seit
27. Jun 2015
Beiträge
1.268
Punkte für Reaktionen
74
Punkte
68
Leider macht der Scanner das nicht :/
Deswegen wäre hier eine Option wünschenswert :)

Paperless-NGX - habe ich vor kurzem mal getestet - hat diese Option bereits.
Ist mir aber für meine Zwecke zu viel - würde synOCR treu bleiben wollen :)
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Wir arbeiten dran … 🤗
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Wir arbeiten dran …
Korrektur: Ich arbeite nicht mehr daran‼️



… weil fertig 😜
Wer möchte die Beta 1.4.99.5 testen?

Es gibt mehrere Anpassungsmöglichkeiten für die Empfindlichkeit in der GUI. Ausreichend ist wahrscheinlich die Anpassung der Empfindlichkeit (sofern die Standardwerte unbefriedigend sein sollten). Darüber hinaus gibt es weitere Parameter unter Experteneinstellungen, wer sich da austoben möchte.
Sobald auf einer Seite Text erkannt wird, deklassifiziert sie sich für eine leere Seite (unabhängig, ob die anderen Parameter greifen).

Ich würde mich über Feedback freuen, wie zuverlässig das Feature in der freien Wildbahn funktioniert.
Besonders würde es mich interessieren, ob die verwendeten Pythonbibliotheken auch wie gewünscht auf Geräten mit ARM64-CPU und ggf. auf DSM 6 laufen.

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Weil es von einigen gewünscht wurde, kann synOCR mit der Version 1.4.99.6 nun auch Dokumente bei jeder Seite trennen. Gerade im Businessumfeld kann das hilfreich sein, wenn viele einseitige Zettel zu scannen sind und eine Umsetzung mit Trennseiten nicht praktikabel wäre.

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7


PS: Ein weiterer Vorteil, wenn man die Leerseitenerkennung aktiviert:
Mein Brother Scanner ist wesentlich schneller, wenn er sich nicht um die Leerseitenerkennung kümmert. Jetzt legt er keine Denkpausen mehr ein.


Viel Spaß :)
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
653
Punkte für Reaktionen
62
Punkte
54

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Ein Backup ist nie verkehrt (z.B. mit HyperBackup), aber grundsätzlich ist es wie bei jedem anderen Paketupdate. Einfach drüberinstallieren.
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
653
Punkte für Reaktionen
62
Punkte
54
Frage zur neuen Funktion der Entfernung von Leerseiten. Die letzte verlinkte synOCR-Version habe ich installiert und die Empfinglichkeit von 50 in mehreren Schritten, während meiner Tests, auf 20 herabgesetzt.

Ich habe dazu die gescannte Datei, die ich hier angefügt habe, verwendet. Ergebnis ist, dass bisher keiner der Werte 50,40,30,20 die Leerseite am Ende entfernt hat. Habe ich was falsch gemacht oder muss ich den Faktor noch weiter verringern?

Ich nutze eine eigene YML-Datei, falls dies einen Unterschied macht. Das Profil, indem ich die neuen Features teste, ist aktiv und wurde nach Anpassung des Schwellenwerts auch immer gespeichert.

Apropos: Kann ich den Schwellenwert und die Erkennung von Leerseiten pro Rule auch in der YML-Datei beeinflussen? WÄre villeicht hilfreich, wenn man die neuen EInstellungen auch darüber beeinflussen könnte, weil man möglicherweise die Entfernung von Leerseiten pro Anwendungsfall beeinflussen möchte.

Das bei meinen Tests entstandene Log, scheint derzeit auch noch nicht die neuen Einstellungen, wie den Switch für die Leerseiten-Erkennung, den Schwellenwert und die neuen Experteinstellungen (die ich im Übrigen unverändert gelassen habe) zu protokollieren?
 

Anhänge

  • IMG_20250118_0001.pdf
    516,7 KB · Aufrufe: 5

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Kannst du mir mal bitte ein Log mit hochladen (Link in der Signatur).

Zu deiner anderen Frage:
Jedes Dokument durchläuft 2 Phasen. In der ersten wird das PDF vorbereitet: Trennseiten, OCR, Leerseiten,
Erst in der 2. Phase werden die Regeln abgearbeitet, weil hier erst die endgültigen Quelldateien zur Verfügung stehen.

Das muss ich mir mal überlegen, ob man die Leerseitenfunktion verschieben sollte.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
So, jetzt konnte ich mir mal dein Dokument ansehen:
Ich habe dazu die gescannte Datei, die ich hier angefügt habe, verwendet. Ergebnis ist, dass bisher keiner der Werte 50,40,30,20 die Leerseite am Ende entfernt hat. Habe ich was falsch gemacht oder muss ich den Faktor noch weiter verringern?

Der Grund ist dieser:
Sobald auf einer Seite Text erkannt wird, deklassifiziert sie sich für eine leere Seite (unabhängig, ob die anderen Parameter greifen).
Auf der Seite ist schon ein Textlayer vorhanden, der aber nur Kauderwelsch enthält. Aber die Relevanz des Textes kann synOCR natürlich nicht beurteilen.
Ist bei deinem Scanner eine (schlechte) Texterkennung aktiviert?

Anbei der Textauszug der vermeintlich leeren Seite 4 und noch ein Beispiel-PDF, bei welchem alle Leerseiten (alle ohne den fetten Beispieltext) bei mir mit den Standardeinstellungen entfernt werden.
 

Anhänge

  • Leerseiten_TEST.pdf
    195,6 KB · Aufrufe: 3
  • synOCR_searchfile_IMG_20250118_0001_4.txt
    835 Bytes · Aufrufe: 2

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
653
Punkte für Reaktionen
62
Punkte
54
Ich verwende einen Canon MX925 Tintendrucker mit ADF duplex Einzug usw.

Ich denke das Problem mit der vierten Seite kommt dadurch zustande weil die Schrift von der Vorderseite durchscheint und aus diesem Grund den Kauderwelsch bei der Texterkennung verursacht.

Muss da jetzt einfach Mal andere Seiten scannen, vielleicht sogar ohne Duplex-Druck/-Scan und die Entfernung der Leerseiten damit testen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Kann dein Scanner in 1Bit Farbtiefe (also schwarz/weiß) scannen? Das könnte das Problem beheben und belohnt zusätzlich mit signifikant kleineren Dateien.
 

hilly

Benutzer
Mitglied seit
10. Dez 2018
Beiträge
43
Punkte für Reaktionen
8
Punkte
8
Hi all,
erstmal ganz großen Dank für die Entwicklung!! Das Tool ist einfach genial und die Installation war super easy!

Hoffe es ist ok, wenn ich meine Frage hier mit in den Thread packe..

Ich überlege aktuell noch, wie ich SynOCR "am besten" in mein "papierloses Büro" einbiden kann.
Meine Haupt-Herausforderung sind aktuell beidseitig bedruckte Briefe. Hier gehe ich aktuell manuell vor, indem ich zuerst alle ungeraden Seiten scanne und dann (rückwärts) alle geraden Seiten. Danach mische ich diese Seiten über ein weiteres Tool (so dass aus Dokument A mit Seite 1,3,5 und Dokument B mit Seite 6,4,2) dann das finale Dokument mit 1,2,3,4,5,6 wird.

Nun meine Frage: Ist das etwas, was ich auch über SynOCR abbilden kann? Ich vermute nicht, aber dachte ich frag mal..
Oder habt Ihr andere Ideen / wie geht Ihr ohne Duplex-Scanner vor?

lG

Hilly
 

wegomyway

Benutzer
Sehr erfahren
Mitglied seit
03. Aug 2022
Beiträge
1.467
Punkte für Reaktionen
628
Punkte
184
„Darüber installiert“ (täglich Backup eh aktuell, die Integritätsprüfung heut erfolgreich aktuell geprüft), bei meinen angelegten Profilen die Option der Leerseiten entfernen angehakt. Einwandfreie Installation. Testlauf steht noch aus.
@geimist, vielen Dank, hätte die Beta getestet, war aber spät ran und auch echt übersehen. Für später, gerne PN for me (ich biete mich hiermit gerne an)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.589
Punkte für Reaktionen
1.428
Punkte
234
Meine Haupt-Herausforderung sind aktuell beidseitig bedruckte Briefe. Hier gehe ich aktuell manuell vor, indem ich zuerst alle ungeraden Seiten scanne und dann (rückwärts) alle geraden Seiten. Danach mische ich diese Seiten über ein weiteres Tool (so dass aus Dokument A mit Seite 1,3,5 und Dokument B mit Seite 6,4,2) dann das finale Dokument mit 1,2,3,4,5,6 wird.
Damit kann synOCR leider nicht dienen. Ich habe dir aber mal ein kleines Bashskript erstellt. Dieses baut ein Dockerimage mit lediglich 2 Programmen, die genau dein Vorhaben umsetzen. Nachdem das Image beim 1. Aufruf gebaut wurde, geht es ab dem 2. Start ganz fix.

Bash:
#!/bin/bash

# Parameter überprüfen
if [ "$#" -ne 3 ]; then
  echo "Usage: $0 <odd_pages.pdf> <even_pages.pdf> <output_file.pdf>"
  exit 1
fi

ODD_PAGES=$1
EVEN_PAGES=$2
OUTPUT_FILE=$3

# Überprüfen, ob die Eingabedateien existieren
if [ ! -f "$ODD_PAGES" ] || [ ! -f "$EVEN_PAGES" ]; then
  echo "Fehler: Eine oder beide Eingabedateien existieren nicht!"
  exit 1
fi

# Docker Image Name
IMAGE_NAME="own-pdf-tools"

# Prüfen, ob das Image existiert
if ! docker image inspect "$IMAGE_NAME" > /dev/null 2>&1; then
  echo "Docker-Image $IMAGE_NAME nicht gefunden. Baue das Image..."
  docker build -t "$IMAGE_NAME" - <<EOF
FROM ubuntu:latest
RUN apt update && apt install -y qpdf pdftk && rm -rf /var/lib/apt/lists/*
WORKDIR /workdir
EOF
fi

# Verzeichnisse und Datei-Namen für das Mounting
HOST_OUTPUT_DIR=${OUTPUT_FILE%/*}
OUTPUT_FILENAME=${OUTPUT_FILE##*/}

# Temporären Container starten und die PDF-Dateien verarbeiten
docker run --rm \
  -v "$(realpath "$ODD_PAGES"):/workdir/odd_pages.pdf" \
  -v "$(realpath "$EVEN_PAGES"):/workdir/even_pages.pdf" \
  -v "$HOST_OUTPUT_DIR:/workdir/output" \
  "$IMAGE_NAME" \
  bash -c "\
    qpdf --empty --pages /workdir/even_pages.pdf z-1 -- /workdir/output/even_reversed.pdf && \
    pdftk A=/workdir/odd_pages.pdf B=/workdir/output/even_reversed.pdf shuffle A B output /workdir/output/$OUTPUT_FILENAME && \
    rm /workdir/output/even_reversed.pdf"

# Prüfen, ob die Verarbeitung erfolgreich war
if [ $? -eq 0 ]; then
  echo "PDF-Dateien wurden erfolgreich zusammengeführt: $OUTPUT_FILE"
else
  echo "Fehler beim Verarbeiten der PDF-Dateien."
  exit 1
fi

Aufgerufen wird es so:
Bash:
bash "/volume1/<path>/mergePDF.sh" "/volume1/<path>/ungerade_Seiten.pdf" "/volume1/<path>/gerade_Seiten_rückwärts.pdf" "/volume1/<path>/Zieldatei.pdf"



@geimist, vielen Dank, hätte die Beta getestet, war aber spät ran und auch echt übersehen.
v1.4.99.6 ist die derzeit aktuelle Beta (genannt snapshot_build). Es gibt noch kein Release mit den zuletzt implementierten Features. Das wird dann irgendwann die Version 1.5.
Vielen Dank fürs Testen 🤗
 

Anhänge

  • mergePDF.sh.zip
    1,4 KB · Aufrufe: 1
Zuletzt bearbeitet:

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.854
Punkte für Reaktionen
1.830
Punkte
314

Kachelkaiser

Benutzer
Sehr erfahren
Mitglied seit
22. Feb 2018
Beiträge
2.285
Punkte für Reaktionen
1.005
Punkte
174
Naja die vierte Stelle kann bestimmt auch noch zweistellig werden :ROFLMAO:
 
  • Haha
  • Like
Reaktionen: geimist und Tommes

wegomyway

Benutzer
Sehr erfahren
Mitglied seit
03. Aug 2022
Beiträge
1.467
Punkte für Reaktionen
628
Punkte
184
@geimist, Test praktisch folgend und Erfolgreich durchgeführt:
Ich habe einen Stapel Papier, einseitig bedruckt (Fehlausdruck übern Drucker, aber leichtes durchschimmern auf Rückseite). Zwei derer Seiten genommen und zwischen diesen beiden ein leeres Blatt gelegt. Also 3 Blätter rein in den 1700er und Scan.
Ergebnis: nachdem synOCR fertig war, sind nur die beiden bedruckten Seiten als Datei abgespeichert worden. Die leeren Seiten nicht vorhanden (wären ja insgesamt 4).
Außer, wie in #4556 geschrieben, in den Profilen die Option „Leerseiten entfernen“ gesetzt, nichts verändert.
 
Zuletzt bearbeitet:
  • Love
Reaktionen: geimist


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat