Dokumentenscanner Bildvorbereitung für OCR: Kontrast, Auflösung und Bereinigung

Q: Welche dpi-Einstellung ist ideal für OCR?

Für normalen gedruckten Text sind 300 dpi in der Regel ausreichend. Bei kleinen Schriften oder alten Druckvorlagen erhöhe auf 400–600 dpi. Höhere Werte verbessern die Erkennung nur marginal und erzeugen deutlich größere Dateien. Wäge Dateiqualität gegen Speicherbedarf und Verarbeitungszeit ab.

Q: Soll ich in Farbe oder Graustufen scannen?

Scanne in Graustufen (8-bit), wenn es nur um Text geht. Graustufen reduziert Dateigröße und erhält Kontrast. Scanne in Farbe, wenn Markierungen, Stempel oder mehrfarbige Elemente wichtig sind. Farbe hilft auch bei Hintergrundentfernung und spätere Bildkorrekturen.

Q: Welche Filter sind vor OCR sinnvoll?

Verwende Deskew zur Ausrichtung und Despeckle zur Entfernung kleiner Störungen. Setze Rauschunterdrückung sparsam ein, zum Beispiel Medianfilter. Leichtes Schärfen kann Zeichenkanten betonen. Zu starke Filter entfernen Details und verschlechtern die Erkennung.

Du arbeitest im Büro, kümmerst dich um Archive, planst einen Scan-Workflow oder bist Scan-Neuling. Dann kennst du die Situation. Du scannst Stapel mit Rechnungen, Verträgen oder historischen Dokumenten. Nach dem Scannen ist die OCR-Erkennung schlecht. Worte fehlen. Zahlen werden falsch erkannt. Gründe dafür sind oft simpel. Die Auflösung war zu niedrig. Der Kontrast passte nicht. Es gab Schatten, Knicke oder Staubflecken. Manchmal sind Bilder unscharf oder schief. Dann folgt viel manuelle Nacharbeit. Du korrigierst Texte. Du scannst neu. Das kostet Zeit und Geld. Es belastet Prozesse und Suche in digitalen Archiven.

Dieser Artikel zeigt dir, wie du Bilder vor dem OCR optimal vorbereitest. Du lernst, welche Einstellungen am Scanner wichtig sind. Du erfährst, welche Bildbearbeitungsschritte echten Nutzen bringen. Dazu gehören Schärfen, Rauschreduzierung, Entzerrung und Kontrastanpassung. Richtig angewendet erhöhen diese Schritte die OCR-Genauigkeit deutlich. Das spart Nacharbeit. Das beschleunigt automatische Workflows. Und das senkt langfristig Kosten durch weniger Nachkorrekturen und Re-Scans.

Du bekommst praxisorientierte Tipps, konkrete Parameter und einen Ablauf, den du sofort testen kannst. Im nächsten Abschnitt geht es zuerst um die richtige Auflösung und wie du sie für verschiedene Dokumenttypen wählst.

Optimale Kombination von Kontrast, Auflösung und Bereinigung für OCR

Gute OCR-Ergebnisse entstehen nicht durch einen einzelnen Parameter. Sie entstehen durch die richtige Kombination aus Auflösung, Kontrast/Bit-Tiefe und gezielter Bildbereinigung. Kleine Fehler in einem Bereich können die Erkennung stark verschlechtern. Andererseits gleichen sinnvolle Vorverarbeitungen viele Schwächen aus.

Dieser Abschnitt erklärt, wie du diese drei Bausteine zusammen einstellst. Die Hinweise sind praktisch. Du kannst sie direkt bei Desktop-Scannern, Multifunktionsgeräten oder in Nachbearbeitungs-Tools anwenden.

Die Tabelle fasst Empfehlungen für typische Dokumenttypen. Sie hilft dir, schnelle Entscheidungen zu treffen. Danach folgen kurze Hinweise zu Binärverfahren und konkreten Tools.

Dokumenttyp	Empf. Auflösung (dpi)	Kontrast / Bit-Tiefe / Preset	Bildvorverarbeitung	Typische Probleme	Ergebnisqualität
Gedruckter Text (klare Schrift)	300 dpi	8-bit Graustufen oder 24-bit Farbe. Preset: „Text“ oder „Black & White“ bei sauberem Papier	Deskew, Rauschfilter leicht, Kontrast anheben, Otsu-Binarisierung	Leichte Flecken, Papiertextur, schiefes Scannen	Sehr gut bis exzellent bei sauberem Input
OCR-unfreundliche Schriften (klein, Serif, Versalien)	400–600 dpi	24-bit Farbe oder 8-bit Graustufen. Kontrast verstärken	Stärkeres Rausch-Reduction, Schärfen leicht, adaptive Binarisierung (Sauvola), Deskew	Fehlinterpretation ähnlicher Zeichen, Zeichenverschmelzung	Gut bis sehr gut mit höherer Auflösung
Handschriftliche Notizen	300–400 dpi	24-bit Farbe, Graustufen möglich. Erhöhe Kontrast behutsam	Hintergrundentfernung, lokale Kontrastanpassung, keine starke Binarisierung bei kursiver Handschrift	Variierende Schrift, Überlappungen, Tinte blutet durch	Variiert stark. Gute Vorverarbeitung hilft, aber manuelle Korrektur bleibt oft nötig
Fotos von Dokumenten	400–600 dpi empfohlen bei Zuschneiden	24-bit Farbe. Weißabgleich, automatischer Kontrast	Perspektivenkorrektur, Entzerrung, adaptive Belichtungskorrektur, Sauvola-Binarisierung	Ungleichmäßige Beleuchtung, Schatten, Verzerrung	Gut bei richtig entzerrten, gleichmäßig beleuchteten Bildern
Formularseiten mit Kästchen und Linien	300–400 dpi	8-bit Graustufen oder Farbe. Kontrast so, dass Linien klar bleiben	Lineare Morphologie zur Linienverstärkung, Binarisierung mit Otsu, Löschfenster für Störpixel	Unterbrochene Linien, verschobene Kästchen, Markierungen	Sehr gut, wenn Linien konsistent erhalten bleiben

Praktische Hinweise zu Methoden und Tools

Für Binarisierung wähle Otsu bei gleichmäßiger Beleuchtung. Wähle Sauvola bei ungleichmäßiger Beleuchtung oder vergilbtem Papier. Beide Verfahren sind in Tools wie ScanTailor Advanced oder ImageMagick verfügbar.

Für Deskew und Linienkorrektur bieten ABBYY FineReader und Adobe Acrobat Pro robuste Automatikfunktionen. Fujitsu-Scanner liefern mit PaperStream IP gute Hardware-nahe Vorverarbeitung. Kostenfreie Tools wie NAPS2 bieten grundlegende Deskew- und Kontrastfunktionen.

Verwende Rauschfilter sparsam. Ein zu starkes Glätten entfernt feine Serifen. Setze stattdessen median-Filter oder leichte Gauß-Filter ein. Wenn du Tesseract verwendest, hilft sauberes Binarisieren und Entfernen von Papierfärbung.

Zusammenfassung: Wähle zuerst passende Auflösung. Dann sorge für sauberen Kontrast und gezielte Bereinigung. Nutze adaptive Binarisierung bei problematischen Vorlagen. Mit dieser Kombination verbesserst du OCR-Ergebnisse spürbar und sparst nachträgliche Korrekturzeit.

Angebot

Epson Workforce ES-580W Scanner, Dokumentenscanner (scannt ohne PC, 35 Seiten BZW. 70 Bildern pro Minute, bis DIN A4, beidseitiger Scan in einem Durchgang, automatische Ausrichtung) One Size

346,90 €472,99 €

Do	Don’t
Scanne gedruckten Text mit 300 dpi. Erhöhe auf 400–600 dpi nur bei sehr kleinen oder feinen Schriften.	Scanne nicht mit zu niedriger oder unnötig hoher DPI. Zu wenig dpi verliert Details. Zu viel dpi erzeugt große Dateien und verlangsamt OCR.
Verwende 8-bit Graustufen für reine Textseiten. Das reduziert Dateigröße und erhält Kontrast.	Vermeide RGB-Scans ohne Grund. Farbe erhöht Speicherbedarf und verlangsamt Verarbeitung, wenn keine Markierungen nötig sind.
Führe Deskew und Beschneidung durch. Richte Seiten gerade aus und entferne unbrauchbare Ränder vor OCR.	Lasse schiefe Scans und große Ränder unverändert. Sie stören Segmentierung und erhöhen Fehlerraten.
Nutze adaptive Binarisierung bei ungleichmäßig beleuchteten oder vergilbten Seiten. Sauvola oder andere adaptive Methoden helfen.	Binarisiere nicht global bei stark variierendem Hintergrund. Otsu kann Bereiche ausreißen und Zeichen verlieren.
Wende sanfte Rauschfilter und moderates Schärfen an. Teste Einstellungen an Musterseiten.	Übertreibe nicht mit aggressiven Filtern. Zu starkes Glätten oder Schärfen erzeugt Artefakte und zerstört Serifen.
Speichere ein unverändertes Original im verlustfreien Format (TIFF oder PDF/A) bevor du bearbeitest.	Überschreibe niemals das Rohscan-Original. Sonst kannst du Fehler nicht rückgängig machen oder Einstellungen nicht anpassen.

Optimale Kombination von Kontrast, Auflösung und Bereinigung für OCR

Praktische Hinweise zu Methoden und Tools

Schritt-für-Schritt-Anleitung zur Bildvorbereitung vor dem OCR-Lauf

Hilfreiche Hinweise und Warnungen

Häufige Fragen zur Bildvorbereitung für OCR

Welche dpi-Einstellung ist ideal für OCR?

Soll ich in Farbe oder Graustufen scannen?

Wann sollte ich binarisieren und welches Verfahren ist geeignet?

Welche Filter sind vor OCR sinnvoll?

Welche typischen Fehler solltest du vermeiden?

Technische Grundlagen: Warum Kontrast, Auflösung und Bereinigung zählen

Wie OCR Zeichen erkennt

Einfluss der Auflösung

Rauscharten und passende Filter

Kontrast und Binarisierung

Weitere Störelemente

Do’s & Don’ts für die Bildvorbereitung vor OCR

Glossar: Wichtige Begriffe zur Bildvorbereitung für OCR

DPI (dots per inch)

Binarisierung

Deskew

Rauschunterdrückung

Kontraststretching

OCR-Confidence

Dieser Artikel ist Teil unseres Schwerpunkt-Themas:

Wenn Du noch mehr erfahren möchtest…

Wer schreibt hier?