Dokumentenscanner OCR-Setup: Tipps für genauere Texterkennung

Q: Welche DPI ist ideal für OCR?

Für die meisten Textdokumente sind 300 dpi ausreichend. Bei sehr kleinen Schriftgrößen oder schlechter Originalqualität wähle 400 dpi. Höhere Werte erhöhen die Dateigröße und bringen meist nur geringe Verbesserungen.

Q: Wann sollte ich Farbe statt Graustufen verwenden?

Nutze Graustufen für reine Textseiten. Wähle Farbe, wenn Markierungen, farbige Formulare oder Logos enthalten sind. Farbe hilft, wenn Farbinformationen für die Nachbearbeitung wichtig sind.

Q: Welche Dateiformate eigenen sich für durchsuchbare PDFs?

Speichere als suchbares PDF oder TIFF mit verlustfreier Kompression. Vermeide JPEG für reine Textdokumente. Für Langzeitarchivierung ist PDF/A empfehlenswert.

Ob du Büro- oder IT-Verantwortliche*r, Freiberufler oder Home-Office-Nutzer bist, gute Texterkennung spart Zeit und Nerven. Viele Projekte scheitern nicht am Scanner, sondern am Setup. Du kennst das Problem: schlechte Texterkennung trotz hoher Auflösung. Oder Fotos statt sauberer Scans mit Schiefstand und Reflexionen. Falsche Einstellungen führen zu unnötiger Nacharbeit. Häufige Fehler sind falscher Seitenmodus, zu starke Kompression, falsche Spracheinstellung und vernachlässigte Vorverarbeitung.

In diesem Artikel lernst du konkrete, praxisnahe Schritte für ein verlässliches OCR-Setup. Du erfährst, welche Hardware-Eigenschaften wichtig sind. Du bekommst empfohlene Scaneinstellungen wie Auflösung, Farbmodus und Dateiformat. Zudem zeige ich dir sinnvolle Vorverarbeitungen. Das umfasst Entzerrung, Entfärbung und Rauschreduzierung. Weiter erkläre ich, wie du passende OCR-Parameter einstellst und wie du die Ausgabe prüfst und automatisierst. Am Ende weißt du, wie du Genauigkeit erhöhst, Zeit sparst und die richtigen Dateiformate wählst.

Erwarte praktische Beispiele, Checklisten und Testverfahren. Die folgenden Abschnitte sind so aufgebaut, dass du Schritt für Schritt einstellungen prüfen und verbessern kannst. Du bekommst konkrete Maßnahmen für bessere Erkennungsraten und weniger manuelle Korrekturen.

Konkrete OCR-Einstellungen und ihre Wirkung

Dieser Leitfaden listet die wichtigsten Parameter für das OCR-Setup auf. Du siehst empfohlene Werte, typische Einsatzfälle und die direkte Auswirkung auf die Texterkennung. Die Tabelle hilft dir beim Vergleich und bei Entscheidungen. Arbeite die Punkte Schritt für Schritt durch. So reduzierst du Fehler und sparst später Zeit bei der Nachbearbeitung.

Einstellung/Option	Empfohlener Wert	Wann verwenden	Auswirkung auf OCR-Genauigkeit
Auflösung / DPI	300 dpi (400 dpi bei sehr kleinen Schriften)	Standard-Textdokumente; 400 dpi für Briefkopf oder sehr kleine Fonts	Hoch. Zu niedrige DPI verschlechtert Erkennung. Sehr hohe DPI erhöht Dateigröße, oft nur geringe Genauigkeitsgewinne über 400 dpi.
Farbmodus	Graustufen für Standard; Farbe bei Farbstoffen/Markierungen	Formulare mit Farben, Markierungen oder Tabellen mit Farbcodierung	Mittel bis hoch. Graustufen bewahrt Details ohne Artefakte. Farbscans helfen bei farbkodierten Inhalten.
Dateiformat	Suchbares PDF oder TIFF, verlustfreie Kompression	Archivierung und Durchsuchbarkeit; TIFF für hohe Qualität	Hoch. Verlustbehaftete JPEG-Kompression kann Zeichen zerstören und Fehler erhöhen.
Schräglagenkorrektur (Deskew)	Automatisch eingeschaltet	Bei handgeführten Scans oder Stapelscannern mit variabler Einzugsrichtung	Hoch. Korrigiert geneigte Zeilen. Viele OCR-Fehler entstehen durch Schieflagen.
Bildvorverarbeitung	Entzerrung, Rauschfilter, adaptive Binarisierung	Alte Dokumente, Fax-Scans, gescannte Fotos	Sehr hoch. Saubere Vorverarbeitung reduziert Falschlesungen und Split-Characters.
Scan-Modus (Simplex/Duplex)	Duplex, wenn beidseitig vorhanden	Beidseitige Dokumente zur Zeitersparnis	Gering bis mittel. Einfluss auf Reihenfolge und Vollständigkeit, indirekt auf Genauigkeit.
OCR-Sprache / Wörterbücher	Konkrete Sprache einstellen; bei Bedarf mehrere Sprachen	Dokumente mit Fachbegriffen oder mehreren Sprachen	Sehr hoch. Falsche Sprache führt zu massiven Erkennungsfehlern.

Kurz zusammengefasst: Stelle 300 dpi als Standard ein und wechsele auf 400 dpi bei kleinen Schriften. Verwende Graustufen für Text und Farben nur bei Bedarf. Speichere als suchbares PDF oder TIFF mit verlustfreier Kompression. Aktiviere Deskew und sinnvolle Vorverarbeitungsschritte. Setze die richtige OCR-Sprache. Diese Kombination erhöht die Genauigkeit deutlich und reduziert manuelle Korrekturen.

Angebot

HP ScanJet Pro 2000 s2, Scanner, Einzelblattzufuhr, 50-Blatt ADF, USB 3.0, bis zu 3.500 Seiten täglich, Kurzbefehle

233,00 €339,00 €

Do	Don’t
Scanne mit 300 dpi. Das ist der beste Kompromiss aus Lesbarkeit und Dateigröße.	Automatisch stark komprimieren vor dem OCR. Verlustbehaftete Kompression zerstört feine Zeichen und erhöht Fehler.
Nutze Graustufen für reine Textseiten. Das reduziert Artefakte und erhält Details.	Alles standardmäßig in Farbe scannen. Das vergrößert Dateien unnötig und bringt selten besseren Text-Output.
Aktiviere Vorverarbeitung wie Deskew, Rauschfilter und adaptive Binarisierung. Das macht Zeichen klarer.	Auf Rohdaten verlassen ohne Vorverarbeitung. Schiefe Seiten und Rauschen führen zu vielen Erkennungsfehlern.
Stelle die korrekte OCR-Sprache ein und lade bei Bedarf Fachwörterbücher. Das erhöht Treffergenauigkeit.	Sprache auf Auto lassen oder den falschen Default verwenden. Falsche Sprache erzeugt systematische Fehlinterpretationen.
Speichere als suchbares PDF oder TIFF (verlustfrei). Nutze PDF/A für Archive.	Nur Bild-PDFs oder JPEGs ohne OCR-Schicht verwenden. Diese Dateien sind nicht durchsuchbar und schwierig zu archivieren.

Konkrete OCR-Einstellungen und ihre Wirkung

Schritt-für-Schritt-Anleitung für ein optimales OCR-Setup

Häufige Fragen zum OCR-Setup

Welche DPI ist ideal für OCR?

Wann sollte ich Farbe statt Graustufen verwenden?

Wie verbessere ich schlechte Erkennungsraten?

Welche Dateiformate eigenen sich für durchsuchbare PDFs?

Was tun bei mehrspaltigen Texten oder Tabellen?

Wie OCR funktioniert und was die Genauigkeit bestimmt

Vorverarbeitung

Segmentierung

Erkennung

Einflussfaktoren auf die Erkennungsgenauigkeit

Do’s & Don’ts beim OCR-Setup

Häufige Fehler beim OCR-Setup

Zu niedrige Auflösung

Schiefe Seiten und Schatten

Falscher Farbmodus und Kompression

Ungeeignete Spracheinstellung

Keine Vorverarbeitung oder fehlerhafte Layoutanalyse

Dieser Artikel ist Teil unseres Schwerpunkt-Themas:

Wenn Du noch mehr erfahren möchtest…

Wer schreibt hier?