synOCR synOCR - GUI für OCRmyPDF

guidovg · 20. Dez. 2024

Moin,

das hat funktioniert. Danke für den Tipp!

Ghost108 · 05. Jan. 2025

Wie kann man leere Seite entfernen lassen?
Macht man das mit dem Parameter --remove-background ?

geimist · 05. Jan. 2025

Das geht derzeit noch nicht uns ist auch nicht so trivial, wie es klingen mag.
Idealerweise macht das der Scanner.

Ghost108 · 05. Jan. 2025

Leider macht der Scanner das nicht :/
Deswegen wäre hier eine Option wünschenswert

Paperless-NGX - habe ich vor kurzem mal getestet - hat diese Option bereits.
Ist mir aber für meine Zwecke zu viel - würde synOCR treu bleiben wollen

geimist · 05. Jan. 2025

Wir arbeiten dran …

geimist · 10. Jan. 2025

geimist schrieb:
Wir arbeiten dran …

Korrektur: Ich arbeite nicht mehr daran

… weil fertig

Wer möchte die Beta 1.4.99.5 testen?

Es gibt mehrere Anpassungsmöglichkeiten für die Empfindlichkeit in der GUI. Ausreichend ist wahrscheinlich die Anpassung der Empfindlichkeit (sofern die Standardwerte unbefriedigend sein sollten). Darüber hinaus gibt es weitere Parameter unter Experteneinstellungen, wer sich da austoben möchte.
Sobald auf einer Seite Text erkannt wird, deklassifiziert sie sich für eine leere Seite (unabhängig, ob die anderen Parameter greifen).

Ich würde mich über Feedback freuen, wie zuverlässig das Feature in der freien Wildbahn funktioniert.
Besonders würde es mich interessieren, ob die verwendeten Pythonbibliotheken auch wie gewünscht auf Geräten mit ARM64-CPU und ggf. auf DSM 6 laufen.

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

geimist · 16. Jan. 2025

Weil es von einigen gewünscht wurde, kann synOCR mit der Version 1.4.99.6 nun auch Dokumente bei jeder Seite trennen. Gerade im Businessumfeld kann das hilfreich sein, wenn viele einseitige Zettel zu scannen sind und eine Umsetzung mit Trennseiten nicht praktikabel wäre.

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

PS: Ein weiterer Vorteil, wenn man die Leerseitenerkennung aktiviert:
Mein Brother Scanner ist wesentlich schneller, wenn er sich nicht um die Leerseitenerkennung kümmert. Jetzt legt er keine Denkpausen mehr ein.

Viel Spaß

Yippie · 17. Jan. 2025

geimist schrieb:
BETA DOWNLOAD:

➜ SPK DSM6
➜ SPK DSM7

Herzlichen Dank für diese neue Funktion!
Muss ich beim Einspielen/Update irgendwas beachten, also Profile usw. sichern?

geimist · 17. Jan. 2025

Ein Backup ist nie verkehrt (z.B. mit HyperBackup), aber grundsätzlich ist es wie bei jedem anderen Paketupdate. Einfach drüberinstallieren.

Yippie · 18. Jan. 2025

Frage zur neuen Funktion der Entfernung von Leerseiten. Die letzte verlinkte synOCR-Version habe ich installiert und die Empfinglichkeit von 50 in mehreren Schritten, während meiner Tests, auf 20 herabgesetzt.

Ich habe dazu die gescannte Datei, die ich hier angefügt habe, verwendet. Ergebnis ist, dass bisher keiner der Werte 50,40,30,20 die Leerseite am Ende entfernt hat. Habe ich was falsch gemacht oder muss ich den Faktor noch weiter verringern?

Ich nutze eine eigene YML-Datei, falls dies einen Unterschied macht. Das Profil, indem ich die neuen Features teste, ist aktiv und wurde nach Anpassung des Schwellenwerts auch immer gespeichert.

Apropos: Kann ich den Schwellenwert und die Erkennung von Leerseiten pro Rule auch in der YML-Datei beeinflussen? WÄre villeicht hilfreich, wenn man die neuen EInstellungen auch darüber beeinflussen könnte, weil man möglicherweise die Entfernung von Leerseiten pro Anwendungsfall beeinflussen möchte.

Das bei meinen Tests entstandene Log, scheint derzeit auch noch nicht die neuen Einstellungen, wie den Switch für die Leerseiten-Erkennung, den Schwellenwert und die neuen Experteinstellungen (die ich im Übrigen unverändert gelassen habe) zu protokollieren?

geimist · 18. Jan. 2025

Kannst du mir mal bitte ein Log mit hochladen (Link in der Signatur).

Zu deiner anderen Frage:
Jedes Dokument durchläuft 2 Phasen. In der ersten wird das PDF vorbereitet: Trennseiten, OCR, Leerseiten,
Erst in der 2. Phase werden die Regeln abgearbeitet, weil hier erst die endgültigen Quelldateien zur Verfügung stehen.

Das muss ich mir mal überlegen, ob man die Leerseitenfunktion verschieben sollte.

geimist · 18. Jan. 2025

So, jetzt konnte ich mir mal dein Dokument ansehen:

Yippie schrieb:
Ich habe dazu die gescannte Datei, die ich hier angefügt habe, verwendet. Ergebnis ist, dass bisher keiner der Werte 50,40,30,20 die Leerseite am Ende entfernt hat. Habe ich was falsch gemacht oder muss ich den Faktor noch weiter verringern?

Der Grund ist dieser:

geimist schrieb:
Sobald auf einer Seite Text erkannt wird, deklassifiziert sie sich für eine leere Seite (unabhängig, ob die anderen Parameter greifen).

Auf der Seite ist schon ein Textlayer vorhanden, der aber nur Kauderwelsch enthält. Aber die Relevanz des Textes kann synOCR natürlich nicht beurteilen.
Ist bei deinem Scanner eine (schlechte) Texterkennung aktiviert?

Anbei der Textauszug der vermeintlich leeren Seite 4 und noch ein Beispiel-PDF, bei welchem alle Leerseiten (alle ohne den fetten Beispieltext) bei mir mit den Standardeinstellungen entfernt werden.

Yippie · 18. Jan. 2025

Ich verwende einen Canon MX925 Tintendrucker mit ADF duplex Einzug usw.

Ich denke das Problem mit der vierten Seite kommt dadurch zustande weil die Schrift von der Vorderseite durchscheint und aus diesem Grund den Kauderwelsch bei der Texterkennung verursacht.

Muss da jetzt einfach Mal andere Seiten scannen, vielleicht sogar ohne Duplex-Druck/-Scan und die Entfernung der Leerseiten damit testen.

geimist · 18. Jan. 2025

Kann dein Scanner in 1Bit Farbtiefe (also schwarz/weiß) scannen? Das könnte das Problem beheben und belohnt zusätzlich mit signifikant kleineren Dateien.

hilly · 19. Jan. 2025

Hi all,
erstmal ganz großen Dank für die Entwicklung!! Das Tool ist einfach genial und die Installation war super easy!

Hoffe es ist ok, wenn ich meine Frage hier mit in den Thread packe..

Ich überlege aktuell noch, wie ich SynOCR "am besten" in mein "papierloses Büro" einbiden kann.
Meine Haupt-Herausforderung sind aktuell beidseitig bedruckte Briefe. Hier gehe ich aktuell manuell vor, indem ich zuerst alle ungeraden Seiten scanne und dann (rückwärts) alle geraden Seiten. Danach mische ich diese Seiten über ein weiteres Tool (so dass aus Dokument A mit Seite 1,3,5 und Dokument B mit Seite 6,4,2) dann das finale Dokument mit 1,2,3,4,5,6 wird.

Nun meine Frage: Ist das etwas, was ich auch über SynOCR abbilden kann? Ich vermute nicht, aber dachte ich frag mal..
Oder habt Ihr andere Ideen / wie geht Ihr ohne Duplex-Scanner vor?

lG

Hilly

wegomyway · 19. Jan. 2025

„Darüber installiert“ (täglich Backup eh aktuell, die Integritätsprüfung heut erfolgreich aktuell geprüft), bei meinen angelegten Profilen die Option der Leerseiten entfernen angehakt. Einwandfreie Installation. Testlauf steht noch aus.
@geimist, vielen Dank, hätte die Beta getestet, war aber spät ran und auch echt übersehen. Für später, gerne PN for me (ich biete mich hiermit gerne an)

geimist · 19. Jan. 2025

hilly schrieb:
Meine Haupt-Herausforderung sind aktuell beidseitig bedruckte Briefe. Hier gehe ich aktuell manuell vor, indem ich zuerst alle ungeraden Seiten scanne und dann (rückwärts) alle geraden Seiten. Danach mische ich diese Seiten über ein weiteres Tool (so dass aus Dokument A mit Seite 1,3,5 und Dokument B mit Seite 6,4,2) dann das finale Dokument mit 1,2,3,4,5,6 wird.

Damit kann synOCR leider nicht dienen. Ich habe dir aber mal ein kleines Bashskript erstellt. Dieses baut ein Dockerimage mit lediglich 2 Programmen, die genau dein Vorhaben umsetzen. Nachdem das Image beim 1. Aufruf gebaut wurde, geht es ab dem 2. Start ganz fix.

Bash:

#!/bin/bash

# Parameter überprüfen
if [ "$#" -ne 3 ]; then
  echo "Usage: $0 <odd_pages.pdf> <even_pages.pdf> <output_file.pdf>"
  exit 1
fi

ODD_PAGES=$1
EVEN_PAGES=$2
OUTPUT_FILE=$3

# Überprüfen, ob die Eingabedateien existieren
if [ ! -f "$ODD_PAGES" ] || [ ! -f "$EVEN_PAGES" ]; then
  echo "Fehler: Eine oder beide Eingabedateien existieren nicht!"
  exit 1
fi

# Docker Image Name
IMAGE_NAME="own-pdf-tools"

# Prüfen, ob das Image existiert
if ! docker image inspect "$IMAGE_NAME" > /dev/null 2>&1; then
  echo "Docker-Image $IMAGE_NAME nicht gefunden. Baue das Image..."
  docker build -t "$IMAGE_NAME" - <<EOF
FROM ubuntu:latest
RUN apt update && apt install -y qpdf pdftk && rm -rf /var/lib/apt/lists/*
WORKDIR /workdir
EOF
fi

# Verzeichnisse und Datei-Namen für das Mounting
HOST_OUTPUT_DIR=${OUTPUT_FILE%/*}
OUTPUT_FILENAME=${OUTPUT_FILE##*/}

# Temporären Container starten und die PDF-Dateien verarbeiten
docker run --rm \
  -v "$(realpath "$ODD_PAGES"):/workdir/odd_pages.pdf" \
  -v "$(realpath "$EVEN_PAGES"):/workdir/even_pages.pdf" \
  -v "$HOST_OUTPUT_DIR:/workdir/output" \
  "$IMAGE_NAME" \
  bash -c "\
    qpdf --empty --pages /workdir/even_pages.pdf z-1 -- /workdir/output/even_reversed.pdf && \
    pdftk A=/workdir/odd_pages.pdf B=/workdir/output/even_reversed.pdf shuffle A B output /workdir/output/$OUTPUT_FILENAME && \
    rm /workdir/output/even_reversed.pdf"

# Prüfen, ob die Verarbeitung erfolgreich war
if [ $? -eq 0 ]; then
  echo "PDF-Dateien wurden erfolgreich zusammengeführt: $OUTPUT_FILE"
else
  echo "Fehler beim Verarbeiten der PDF-Dateien."
  exit 1
fi

Aufgerufen wird es so:

Bash:

bash "/volume1/<path>/mergePDF.sh" "/volume1/<path>/ungerade_Seiten.pdf" "/volume1/<path>/gerade_Seiten_rückwärts.pdf" "/volume1/<path>/Zieldatei.pdf"

wegomyway schrieb:
@geimist, vielen Dank, hätte die Beta getestet, war aber spät ran und auch echt übersehen.

v1.4.99.6 ist die derzeit aktuelle Beta (genannt snapshot_build). Es gibt noch kein Release mit den zuletzt implementierten Features. Das wird dann irgendwann die Version 1.5.
Vielen Dank fürs Testen

Tommes · 20. Jan. 2025

geimist schrieb:
Das wird dann irgendwann die Version 1.5.

Viel Platz nach oben ist ja nicht mehr, ausgehend von der aktuellen 1.4.99.6.

Kann also nicht mehr all zu lange dauern

Kachelkaiser · 20. Jan. 2025

Naja die vierte Stelle kann bestimmt auch noch zweistellig werden

wegomyway · 20. Jan. 2025

@geimist, Test praktisch folgend und Erfolgreich durchgeführt:
Ich habe einen Stapel Papier, einseitig bedruckt (Fehlausdruck übern Drucker, aber leichtes durchschimmern auf Rückseite). Zwei derer Seiten genommen und zwischen diesen beiden ein leeres Blatt gelegt. Also 3 Blätter rein in den 1700er und Scan.
Ergebnis: nachdem synOCR fertig war, sind nur die beiden bedruckten Seiten als Datei abgespeichert worden. Die leeren Seiten nicht vorhanden (wären ja insgesamt 4).
Außer, wie in #4556 geschrieben, in den Profilen die Option „Leerseiten entfernen“ gesetzt, nichts verändert.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

BETA DOWNLOAD:​

➜ SPK DSM6​

➜ SPK DSM7​

Benutzer

BETA DOWNLOAD:​

➜ SPK DSM6​

➜ SPK DSM7​

Benutzer

➜ SPK DSM6​

➜ SPK DSM7​

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

BETA DOWNLOAD:

➜ SPK DSM6

➜ SPK DSM7

➜ SPK DSM6

➜ SPK DSM7