Question 1

Welche Qualitaet kann ich von der OCR-Textextraktion erwarten?

Accepted Answer

Die OCR-Genauigkeit haengt von der Qualitaet des gescannten Dokuments ab. Saubere, hochaufloesende Scans mit Standardschriften erreichen typischerweise eine Genauigkeit von 90-99%. Unscharfe Scans, Handschrift oder ungewoehnliche Schriften fuehren zu geringerer Genauigkeit.

Question 2

Welche Sprachen werden unterstuetzt?

Accepted Answer

Wir unterstuetzen 9 Sprachen: Deutsch, Englisch, Spanisch, Portugiesisch, Franzoesisch, Italienisch, Niederlaendisch, Japanisch und Koreanisch. Waehlen Sie die richtige Sprache vor der Verarbeitung, um die Erkennungsgenauigkeit deutlich zu verbessern.

Question 3

Was ist der Unterschied zwischen gescannten PDFs und Text-PDFs?

Accepted Answer

Ein Text-PDF enthaelt echte Textzeichen, die direkt ausgewaehlt und kopiert werden koennen. Ein gescanntes PDF enthaelt Bilder von Seiten ohne auswaehlbaren Text. OCR wird fuer gescannte PDFs benoetigt, um den Text aus den Seitenbildern zu extrahieren.

Question 4

Wird mein PDF fuer die OCR-Verarbeitung an einen Server gesendet?

Accepted Answer

Nein. Ihr PDF bleibt auf Ihrem Geraet. Die OCR-Engine Tesseract.js und das Sprachmodell (~15 MB) werden einmal in Ihren Browser heruntergeladen und zwischengespeichert. Die gesamte Texterkennung findet lokal in Ihrem Browser statt.

OCR PDF — Text extrahieren

So funktioniert es

Ueber dieses Tool

Haeufig gestellte Fragen