テキストの抽出

PDF ドキュメントからテキスト コンテンツを抽出する

ここに PDF ファイルをドロップするか、クリックしてアップロードします

ここに PDF ファイルをドロップします

ファイルが大きすぎます (最大 100MB)

PDF が単語ではなく単語の画像である場合

PDF は見やすいですが、RFP の長い引用、データのクリーンアップ、翻訳の準備、または再入力せずに貼り付ける必要がある引用など、必要な単語が閉じ込められる可能性があります。抽出は、通常のテキスト ツールへの橋渡しです。OCR は、スキャン、写真、およびテキストのように見える PDF に使用されますが、慎重にパスし、その後注意深く読み取るまでは実際には選択できませんでした。スキャンの場合、OCR も問題の一部であり、スペル チェッカーはコンプライアンス担当者ではないため、ケース ID のサイレント 3 が 8 に変わってしまうことを防ぐために、注意深く読むことが依然としてオフィスの習慣になっています。抽出したテキストを新しい公式文書にする必要がある場合、多くのチームは編集のために PDF を Word に変換します。最終成果物がまだ PDF である場合は、新しいエクスポートがきれいに送信されるように PDF を電子メール用に圧縮することもできることを覚えておいてください。「ちょうどいいものを開いて」デスクに来ることができない遠方の同僚や、礼儀正しいが忙しい顧客を想像してみてください。ファイル名とファイル構造は、あなたがそれらに示す敬意の一部です。領収書をアップロードするフィールド ワーカー、論文パケットを提出するホーム オフィスの学生、そして依然として変更指示の承認を得なければならないプロジェクト マネージャーを想像してみてください。肩書きは異なりますが、時間のプレッシャーは同じです。良い習慣として、ファイル名に明らかなマスター名と明らかな日付を 1 つずつ残しておくと、将来、すべてが同じように見える 10 個のコピーを開かなくてもパケットを見つけることができます。メールボックスの制限が厳しい場合、1 回のハンドオフで PDF をオンラインで無料で結合したり、スレッドがバウンスしたときに PDF を電子メール用に圧縮したり、再構築よりクイック編集の方が速い場合に PDF を Word に変換したり、リモートの承認者が連署を待っているときに PDF にオンラインで署名したりできることを知っておくと役立ちます。

スキャンした PDF から修正可能なテキストに移動する

  1. スキャンが非常に歪んでいる場合は、まっすぐなエッジで再スキャンしてみてください。オフィスのワークフローでは、優れた入力が毎回英雄的な修正ソフトウェアに勝るからです。
  2. OCR と変換を実行し、テキストのナビゲーション ペインを使用して、見出しが実際のアウトライン レベルになったか、それとも目次用に再構成する必要がある単なる太線になったかを確認します。
  3. 番号や固有名詞が記載されているすべてのページをゆっくりと読み、写真が署名やスタンプの信頼できる情報源となる場合は、監査の必要に応じてスキャン PDF を保管してください。

FAQ: スキャンした PDF OCR をテキストに変換

OCR 後にテーブルが醜くなるのはなぜですか?
OCR は、表内の細胞株を推測したり、間違ったセルを結合したりする場合があります。多くの場合、いくつかの単語を微調整するのではなく、複雑な表をテキストで再構築する必要があります。
手書きの場合はどうでしょうか?
手書きは OCR にとって信頼性が低いため、法務チームが人間によるレビューを必要とする場合は、そのコンテンツを手動で再入力するか、対象を絞った写真のワークフローとして扱います。
GDPR または HIPAA に基づく個人データに対する OCR は問題ありませんか?
法的リスクは技術的な詳細ではないため、DPA を確認し、承認されたベンダーと処理場所を使用し、ランダムなツールを介して機密スキャンを送信しないようにしてください。
More versions