ブログ一覧へ
tutorial 2026-06-14

画像 OCR:任意の画像から 100+ 言語でテキストを抽出(2026)

画像 OCR:任意の画像から 100+ 言語でテキストを抽出

日本食レストランのメニュー、ドイツの道路標識、手書きの講義板、または会計チームがデジタル化を必要とするその奇妙にフォーマットされた領収書の写真を撮ります——そして手動でタイプせずに、コピペ可能な形式でテキストが欲しい。それが OCR(光学文字認識)であり、2026 年には、ソース画像をどこにもアップロードせずに、電話、ブラウザ、100+ 言語で実行できるほど良くなっています。

このガイドは、モダン OCR の仕組み、Ai2Done の Image to Text ツール 対電話に組み込まれた OCR 対クラウド API をいつ使うべきか、そして公開投稿しないものすべて——パスポート、ID カード、名刺、医療文書、家系図研究、すべて——に対してローカルで OCR を行うプライバシーロジックを説明します。

TL;DR

  • ソース画像が機微な情報(ID、契約書、医療)を含むとき Image to Text ツール を使用——ブラウザで 100% 動作。
  • 電話の写真からのカジュアルなワンタップコピーには iOS Live Text または Google Lens を使用——即座、ただしデータはクラウドで処理される可能性。
  • テーブル構造認識、手書き、コールあたり 50+ ページのような非常に特定の機能が必要なときは**クラウド OCR(Google Cloud Vision、AWS Textract)**を使用。
  • PDF には Extract Text ツール を使用——PDF がテキストベース(OCR 不要)かスキャン(OCR 実行)かを自動検出。
  • 100+ 言語には、モダン Tesseract がすべてサポート;品質は変動(英語 / 中国語 / 日本語 / 韓国語はほぼ完璧、低リソースのアフリカとインドのスクリプトは変動)。

なぜ見た目より難しいのか

写真からテキストを読むことは些細に見えます——あなたは毎日目でやっています。コンピューターにはすべて相互作用する 3 つの独立した問題を解決する必要があります:

  1. 検出:画像のどこにテキストがあるのか?フラットなドキュメントスキャンでは、答えは「どこでも」です。実世界の写真(蛍光灯の下で角度を持って保持されたレストランメニュー)では、テキストはピクセルの 5%、12° 回転、部分的に影、カラフルな背景と重なるかもしれません。
  2. 認識:このグリフはどの文字か?大文字「I」、小文字「l」、数字「1」はほとんどのフォントで視覚的にほぼ同一です。日本語の漢字対簡体字中国語は、文字が同一に見えるが異なる意味を持つため 30 年前からの難問です。
  3. レイアウト:文字をどの読み順序で単語、行、段落、列に組み立てるべきか?マルチカラム新聞ページや表のある請求書は、文字ごとの認識とは完全に別の ML 問題です。

2010 年のナイーブな OCR ライブラリは、クリーンな白地黒文字スキャンに対して (2) を合理的に解決し、実写真の (1) と (3) で失敗しました。モダンシステムはエンドツーエンドでディープラーニングを使用——画像を取って読み順序でテキストを発行する単一のニューラルネットワークが、検出とレイアウトを暗黙的に処理します。

ブラウザサイド OCR の現在の最先端は Tesseract 5(オープンソース、Google が運営)で LSTM ベースの認識を持ちます。100+ 言語をサポートし、WebAssembly で高速に動き、最も一般的な 30 言語に対して商用提供と同等の精度を生成します。

方法 1:Ai2Done Image to Text(ブラウザサイド、プライバシーファースト)

Ai2Done Image to Text ツール は Tesseract.js(WebAssembly にコンパイルされた Tesseract 5)をクリーンな UI でラップします:

  1. 任意のモダンブラウザで /tools/image_to_text を開く。
  2. 言語を選ぶ——100+ オプションのドロップダウンから選択。複数言語ドキュメント(例:英語ブランド名を持つ中国語レストラン領収書)には、複数言語を一度に選択できます。
  3. 画像をアップロード——JPG、PNG、HEIC、WebP、または BMP をドラッグ&ドロップ。ツールはクリップボードからの貼り付けも受け入れます(スクリーンショットに便利)。
  4. 2〜15 秒待つ——Tesseract が CPU でローカルに実行。初回使用は言語モデル(言語あたり〜5 MB)をダウンロード;モデルがブラウザにキャッシュされるため、その後の実行は瞬時。
  5. コピーまたはダウンロード——出力はプレーンテキストとして表示;OCR レイヤーが原本画像の上で見えないが選択可能な検索可能 PDF としてもエクスポート可能。

すべてがブラウザで実行されます。画像、言語モデル、抽出されたテキストはサーバーに触れません。機微なドキュメント(パスポート、医療記録、銀行明細)には、これが唯一の安全なパターンです——すべての OCR-as-a-service 提供は少なくともデバッグ目的のためにアップロード画像を保持し、しばしばより長く。

精度のヒント

  • 最良の結果のために、ソース画像は少なくとも 300 DPI 相当(A4 ページに対して〜1500×2000 px)であるべき。
  • 可能なら OCR 前にまっすぐにしてクロップ——Tesseract は最大〜15° の回転を優雅に処理しますが、完全に揃ったテキストでははるかに良い。
  • 低コントラストスキャンには、ツールが大津の方法を使って純粋な白黒に変換する**「2 値化」**トグルを持ちます——薄いまたは黄ばんだページでしばしば 10〜15% の精度向上。
  • マルチカラムレイアウト:**「列を検出」**を有効化すると、Tesseract が列をまたいで読まない。

方法 2:iOS Live Text / Google Lens(電話でワンタップ)

カジュアルな日常 OCR には、電話に組み込まれた OCR は本当に魔法のようです:

  • iOS Live Text(iOS 15+):任意のテキストにカメラを向け、ビューファインダーの右下隅のインジケーターをタップし、Web ページと同じようにテキストを選択。iPhone 11 以降でオフラインで動作;古いデバイスはクラウドラウンドトリップにフォールバック。
  • Google Lens(Android、Chrome、Google Photos):同じフロー、わずかに広い言語サポート、デフォルトでクラウドサイドで動作するが、Pixel デバイスで機微なコンテンツに「オンデバイス」設定を提供。

両方とも「このレストランメニューを翻訳アプリにコピーする必要」または「このホワイトボード写真から友人の電話番号を送って」に完璧です。ダウンロード可能なテキストファイルや CSV に着地する必要があるものには、ぎこちない——各チャンクをノートアプリに手動でコピーする必要があります。

方法 3:クラウド OCR API(スケールや特別機能が必要なとき)

数千のドキュメントを処理する自動化パイプライン、またはプレーンテキスト抽出を超える機能が必要なとき:

  • Google Cloud Vision API —— 優れたマルチ言語サポート、例外的な手書き認識、1000 画像あたり $1.50。
  • AWS Textract —— フォームとテーブルのクラス最高(プレーンテキストだけでなく構造化されたキー値ペアとテーブルセルを返す)、機能によって 1000 ページあたり $1.50〜50。
  • Azure Computer Vision —— 堅実なオールラウンダー、Microsoft 365 ワークフローと統合。

トレードオフ:処理する各画像はサードパーティサーバーに送信され、彼らのデータ保持ポリシーごとに保持されます(通常デバッグ用に 30 日)。非機微データの自動化ビジネスワークフローには問題ありません。パスポート、医療記録、契約書、または個人的なものには、取りたくないプライバシーステップかもしれません。

どう構築したか(技術的ディープダイブ)

Ai2Done Image to Text ツール は以下に構築されています:

  • Tesseract.js 5.1 —— WebAssembly にコンパイルされた Tesseract 5 LSTM。コアエンジンは〜1.5 MB gzip 圧縮;各言語モデルは 5〜20 MB。
  • 遅延言語ロード —— 100 言語モデルを出荷しません;ブラウザはオンデマンドで選択した言語のみをダウンロード。モデルはブラウザの HTTP キャッシュにキャッシュされるため、リロードは瞬時。
  • Web Worker スレッドプール —— 複数画像のバッチ OCR には、navigator.hardwareConcurrency - 1 までワーカーを生成して、クランチ中に UI を反応的に保ちます。
  • 前処理パイプライン —— 画像を Tesseract に渡す前に、オプションの deskew(Hough 変換を使用)、2 値化(大津の方法)、コントラスト正規化を実行。これらは物理ドキュメントの電話写真で大きく役立ちます。
  • 検索可能 PDF エクスポート —— 「OCR オーバーレイ」出力には、pdf-lib を使用して原本画像プラス正しい文字位置の不可視テキストレイヤーを構成します。出力は任意のリーダーが開き、検索し、コピーできる本物の PDF です。

非常に大きい画像(一辺 >4000 px)には、OCR 前に 2000 px にダウンサンプリングします。Tesseract の精度はほとんどのフォントでその解像度の周りでプラトーになり、追加ピクセルは出力を改善せずに物事を遅くするだけです。

FAQ

Q: ツールは手書きテキストをサポートしますか? A: 限定的。Tesseract 5 は英語、アラビア語、その他いくつかの実験的手書きモデルを持ちますが、実際の手書きでの精度は最高で 60〜80% です。本格的な手書き OCR には、Google Cloud Vision または Microsoft Azure の Form Recognizer が依然として意味あるほど良いです。Tesseract 6(2026 年後半予想)を追跡しており、大きな手書きアップグレードを約束しています。

Q: 各ページを最初にスクリーンショットせずに PDF を直接 OCR できますか? A: はい —— Extract Text ツール を使用してください。PDF を開き、各ページがテキストベース(直接抽出)か画像ベース(OCR を実行)かを検出し、結合されたテキスト出力を生成します。

Q: 私の中国語 / 日本語 / 韓国語 OCR は奇妙な文字置換があります。なぜ? A: CJK 言語には、正しい言語モデルを選ぶことがヨーロッパ言語よりも重要です。簡体字中国語と繁体字中国語は多くの文字を共有しますが、一部に異なるグリフスタイルを使います——繁体字中国語ドキュメントに chi_sim を選ぶと、微妙に間違った出力が得られます。特定のバリアント(chi_simchi_trajpn、垂直日本語用の jpn_vertkor)を選んでください。

Q: 本当にどれくらい正確? A: よくサポートされた言語(英語、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語、ロシア語、アラビア語)のクリーンな印刷テキストでは、300 DPI で 98〜99.5% の文字精度を期待してください。典型的なライティングでの電話写真では、92〜97%。低リソースのアフリカやインドのスクリプトでは、時にはより低い —— Tesseract のトレーニングデータは不均一です。

Q: ツールはビデオからテキストを抽出できますか? A: 直接ではありません —— 静止画像で動作します。テキストがビデオ字幕に表示される場合、代わりに Audio to Text ツール を使用してください(Whisper、OpenAI ASR モデルを使用、ブラウザサイドでも)。特定のビデオフレームからテキストをつかむ必要がある場合、最初にスクリーンショットしてから Image to Text を実行してください。

Q: 角度から撮った写真で OCR は機能しますか? A: 〜15° の回転内ではい。深刻に傾いた写真(テーブルの反対側から撮影)には、**「自動 deskew」**オプションを有効化してください。〜30° 回転を超えると、結果は急速に劣化します —— 最初に写真アプリでまっすぐにしてから OCR してください。

Q: テーブル構造データ——請求書、スプレッドシートはどうですか? A: Tesseract はプレーンテキストを返し、空白と改行でレイアウトを近似します。本物のテーブルセル構造(キー値ペア、マルチカラム財務レポート)には、AWS Textract が意味あるほど良く、現在唯一合理的なオプションです。2026 Q4 にブラウザサイドテーブル検出を追加中。

今試す

数秒で任意の画像からテキストを抽出:

Image to Text ツールを開く →

写真をドラッグ&ドロップ、言語を選び、テキストを取得。アップロードなし、サインアップなし、ウォーターマークなし。

関連読み物


最終更新 2026-06-14。Image to Text OCR は Tesseract.js を使ってブラウザで 100% 動作 —— 画像はデバイスを離れません。処理するファイルを収集、ログ、または分析することは決してありません。