Question 1

OCRテキスト抽出の品質はどの程度ですか？

Accepted Answer

OCRの精度はスキャン文書の品質に依存します。標準フォントを使用した鮮明な高解像度スキャンでは、通常90〜99%の精度が得られます。ぼやけたスキャン、手書き、または珍しいフォントは精度が低くなります。

Question 2

どの言語がサポートされていますか？

Accepted Answer

9言語をサポートしています：日本語、英語、スペイン語、ポルトガル語、フランス語、ドイツ語、イタリア語、オランダ語、韓国語。処理前に正しい言語を選択すると、認識精度が大幅に向上します。

Question 3

スキャンPDFとテキストPDFの違いは何ですか？

Accepted Answer

テキストPDFは直接選択・コピーできる実際のテキスト文字を含みます。スキャンPDFは選択可能なテキストのないページ画像を含みます。スキャンPDFからテキストを抽出するにはOCRが必要です。

Question 4

OCR処理のためにPDFがサーバーに送信されますか？

Accepted Answer

いいえ。PDFはお使いのデバイスに残ります。Tesseract.js OCRエンジンと言語モデル（約15 MB）はブラウザに一度だけダウンロードされ、キャッシュされます。すべてのテキスト認識はブラウザ内でローカルに実行されます。

OCR PDF — テキスト抽出

使い方