テキストの抽出

PDF ドキュメントからテキスト コンテンツを抽出する

ここに PDF ファイルをドロップするか、クリックしてアップロードします

ここに PDF ファイルをドロップします

ファイルが大きすぎます (最大 100MB)

「レイアウトを維持する」は希望でありプロセスである

PDF は見やすいですが、RFP の長い引用、データのクリーンアップ、翻訳の準備、または再入力せずに貼り付ける必要がある引用など、必要な単語が閉じ込められる可能性があります。抽出は、通常のテキスト ツールへの橋渡しです。検索可能なテキストはソフトなスーパーパワーです。一日がすでに長いときに 300 ページを読み返すことなく、長い契約書の 1 つの条項を見つけることができます。スキャンの場合、OCR も問題の一部であり、スペル チェッカーはコンプライアンス担当者ではないため、ケース ID のサイレント 3 が 8 に変わってしまうことを防ぐために、注意深く読むことが依然としてオフィスの習慣になっています。抽出したテキストを新しい公式文書にする必要がある場合、多くのチームは編集のために PDF を Word に変換します。最終成果物がまだ PDF である場合は、新しいエクスポートがきれいに送信されるように PDF を電子メール用に圧縮することもできることを覚えておいてください。領収書をアップロードするフィールド ワーカー、論文パケットを提出するホーム オフィスの学生、そして依然として変更指示の承認を得なければならないプロジェクト マネージャーを想像してみてください。肩書きは異なりますが、時間のプレッシャーは同じです。「ちょうどいいものを開いて」デスクに来ることができない遠方の同僚や、礼儀正しいが忙しい顧客を想像してみてください。ファイル名とファイル構造は、あなたがそれらに示す敬意の一部です。確信が持てない場合は、金銭、署名、コンプライアンスに関する文言など、重要なページをいくつかプレビューしてください。これらのページは、ストレスが高いときにズームするページだからです。メールボックスの制限が厳しい場合、1 回のハンドオフで PDF をオンラインで無料で結合したり、スレッドがバウンスしたときに PDF を電子メール用に圧縮したり、再構築よりクイック編集の方が速い場合に PDF を Word に変換したり、リモートの承認者が連署を待っているときに PDF にオンラインで署名したりできることを知っておくと役立ちます。

PDF の構造を維持しながらテキストに移動する

  1. コンテンツに触れる前に、必要なブランドに一致するようにテキストのデフォルト スタイルを設定すると、都市ごとにローカルで調整するのではなく、見出しスタイルを一括で再適用できます。
  2. 画像がジャンプする場合は、スペースで微調整する代わりに、アンカー オプションとラップ オプションを意図的に使用します。オブジェクトの前の段落を編集すると中断されます。
  3. 2 ページのテスト印刷を実行します。画面校正では、フッター ルールと行間隔がクライアント向けの作業で紙に残ることが保証されないためです。

FAQ: PDF からテキストへの検索可能かつ選択可能なテキストの維持

なぜ柱が壊れるのか?
PDF の列レイアウトは配置されたレイアウトです。テキストはフローベースであるため、テキスト内の実際の列または表グリッドを設定して、同じ読み取り順序を取得できます。
脚注についてはどうでしょうか?
脚注は変換されることもあれば、文末脚注として表示されることも、プレーン テキストになることもあります。ドキュメントが学術的または法律的に使用される場合は、必ず脚注リンクをテストしてください。
雑誌風のPDFにはこれで良いでしょうか?
重いデザインには、テキスト パスではなくデザイン ツールが必要な場合があります。変換してもテキストを改善することはできますが、印刷所向けの真のレイアウトのレプリカにはなりません。
More versions