OCR PDF — Text extrahieren
Extrahieren Sie Text aus gescannten PDFs mit OCR. Kostenlos, kein Upload — gesamte Verarbeitung in Ihrem Browser.
Your files never leave your device. All processing happens in your browser. We don't upload, store, or access your files.
Your PDF stays on your device. A language model (~15 MB) is downloaded once to enable text recognition — no file data is sent.
Drop your scanned PDF here or click to browse
PDF files — works best with scanned documents
So funktioniert es
- 1Waehlen Sie die OCR-Sprache passend zu Ihrem Dokument
- 2Ziehen Sie Ihr gescanntes PDF in den Upload-Bereich oder klicken Sie zum Durchsuchen
- 3Warten Sie, waehrend jede Seite verarbeitet wird — OCR laeuft vollstaendig in Ihrem Browser
- 4Kopieren Sie den extrahierten Text in die Zwischenablage oder laden Sie ihn als .txt-Datei herunter
Ueber dieses Tool
Extrahieren Sie Text aus gescannten oder bildbasierten PDFs mit der OCR-Engine Tesseract.js, vollstaendig in Ihrem Browser. Waehlen Sie aus 9 Sprachen einschliesslich Deutsch, Englisch, Spanisch, Franzoesisch, Portugiesisch, Italienisch, Niederlaendisch, Japanisch und Koreanisch. Das Sprachmodell (~15 MB) wird einmal heruntergeladen und von Ihrem Browser zwischengespeichert — Ihre PDF-Datei wird niemals irgendwohin gesendet. Ergebnisse koennen in die Zwischenablage kopiert oder als .txt-Datei heruntergeladen werden.
Haeufig gestellte Fragen
Welche Qualitaet kann ich von der OCR-Textextraktion erwarten?
Die OCR-Genauigkeit haengt von der Qualitaet des gescannten Dokuments ab. Saubere, hochaufloesende Scans mit Standardschriften erreichen typischerweise eine Genauigkeit von 90-99%. Unscharfe Scans, Handschrift oder ungewoehnliche Schriften fuehren zu geringerer Genauigkeit.
Welche Sprachen werden unterstuetzt?
Wir unterstuetzen 9 Sprachen: Deutsch, Englisch, Spanisch, Portugiesisch, Franzoesisch, Italienisch, Niederlaendisch, Japanisch und Koreanisch. Waehlen Sie die richtige Sprache vor der Verarbeitung, um die Erkennungsgenauigkeit deutlich zu verbessern.
Was ist der Unterschied zwischen gescannten PDFs und Text-PDFs?
Ein Text-PDF enthaelt echte Textzeichen, die direkt ausgewaehlt und kopiert werden koennen. Ein gescanntes PDF enthaelt Bilder von Seiten ohne auswaehlbaren Text. OCR wird fuer gescannte PDFs benoetigt, um den Text aus den Seitenbildern zu extrahieren.
Wird mein PDF fuer die OCR-Verarbeitung an einen Server gesendet?
Nein. Ihr PDF bleibt auf Ihrem Geraet. Die OCR-Engine Tesseract.js und das Sprachmodell (~15 MB) werden einmal in Ihren Browser heruntergeladen und zwischengespeichert. Die gesamte Texterkennung findet lokal in Ihrem Browser statt.