OCR PDF — テキスト抽出
OCRを使用してスキャンPDFからテキストを抽出。無料、アップロード不要 — すべての処理はブラウザ内で実行。
Your files never leave your device. All processing happens in your browser. We don't upload, store, or access your files.
Your PDF stays on your device. A language model (~15 MB) is downloaded once to enable text recognition — no file data is sent.
Drop your scanned PDF here or click to browse
PDF files — works best with scanned documents
使い方
- 1ドキュメントに合ったOCR言語を選択
- 2スキャンしたPDFをアップロードエリアにドロップまたはクリックして参照
- 3各ページの処理を待ちます — OCRはブラウザ内で完全に実行されます
- 4抽出されたテキストをクリップボードにコピーまたは.txtファイルとしてダウンロード
このツールについて
Tesseract.js OCRエンジンを使用して、スキャンされたPDFや画像ベースのPDFからテキストを抽出します。すべてブラウザ内で完結します。英語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、オランダ語、日本語、韓国語の9言語から選択できます。言語モデル(約15 MB)は一度だけダウンロードされ、ブラウザにキャッシュされます。PDFファイルは一切送信されません。結果はクリップボードにコピーするか、.txtファイルとしてダウンロードできます。
よくある質問
OCRテキスト抽出の品質はどの程度ですか?
OCRの精度はスキャン文書の品質に依存します。標準フォントを使用した鮮明な高解像度スキャンでは、通常90〜99%の精度が得られます。ぼやけたスキャン、手書き、または珍しいフォントは精度が低くなります。
どの言語がサポートされていますか?
9言語をサポートしています:日本語、英語、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語、オランダ語、韓国語。処理前に正しい言語を選択すると、認識精度が大幅に向上します。
スキャンPDFとテキストPDFの違いは何ですか?
テキストPDFは直接選択・コピーできる実際のテキスト文字を含みます。スキャンPDFは選択可能なテキストのないページ画像を含みます。スキャンPDFからテキストを抽出するにはOCRが必要です。
OCR処理のためにPDFがサーバーに送信されますか?
いいえ。PDFはお使いのデバイスに残ります。Tesseract.js OCRエンジンと言語モデル(約15 MB)はブラウザに一度だけダウンロードされ、キャッシュされます。すべてのテキスト認識はブラウザ内でローカルに実行されます。