OCR PDF — テキスト抽出

OCRを使用してスキャンPDFからテキストを抽出。無料、アップロード不要 — すべての処理はブラウザ内で実行。

ファイルはお使いのデバイスに保存されますサーバーへのアップロードなし100%無料セキュリティについて詳しく

Your files never leave your device. All processing happens in your browser. We don't upload, store, or access your files.

Your PDF stays on your device. A language model (~15 MB) is downloaded once to enable text recognition — no file data is sent.

Drop your scanned PDF here or click to browse

PDF files — works best with scanned documents

使い方

  1. 1ドキュメントに合ったOCR言語を選択
  2. 2スキャンしたPDFをアップロードエリアにドロップまたはクリックして参照
  3. 3各ページの処理を待ちます — OCRはブラウザ内で完全に実行されます
  4. 4抽出されたテキストをクリップボードにコピーまたは.txtファイルとしてダウンロード

このツールについて

Tesseract.js OCRエンジンを使用して、スキャンされたPDFや画像ベースのPDFからテキストを抽出します。すべてブラウザ内で完結します。英語、スペイン語、フランス語、ドイツ語、ポルトガル語、イタリア語、オランダ語、日本語、韓国語の9言語から選択できます。言語モデル(約15 MB)は一度だけダウンロードされ、ブラウザにキャッシュされます。PDFファイルは一切送信されません。結果はクリップボードにコピーするか、.txtファイルとしてダウンロードできます。

よくある質問

OCRテキスト抽出の品質はどの程度ですか?

OCRの精度はスキャン文書の品質に依存します。標準フォントを使用した鮮明な高解像度スキャンでは、通常90〜99%の精度が得られます。ぼやけたスキャン、手書き、または珍しいフォントは精度が低くなります。

どの言語がサポートされていますか?

9言語をサポートしています:日本語、英語、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語、オランダ語、韓国語。処理前に正しい言語を選択すると、認識精度が大幅に向上します。

スキャンPDFとテキストPDFの違いは何ですか?

テキストPDFは直接選択・コピーできる実際のテキスト文字を含みます。スキャンPDFは選択可能なテキストのないページ画像を含みます。スキャンPDFからテキストを抽出するにはOCRが必要です。

OCR処理のためにPDFがサーバーに送信されますか?

いいえ。PDFはお使いのデバイスに残ります。Tesseract.js OCRエンジンと言語モデル(約15 MB)はブラウザに一度だけダウンロードされ、キャッシュされます。すべてのテキスト認識はブラウザ内でローカルに実行されます。

ShareTwitterRedditLinkedIn