テキストの抽出

PDF ドキュメントからテキスト コンテンツを抽出する

ここに PDF ファイルをドロップするか、クリックしてアップロードします

ここに PDF ファイルをドロップします

ファイルが大きすぎます (最大 100MB)

表は誰もが再入力することを恐れるものです

PDF は見やすいですが、RFP の長い引用、データのクリーンアップ、翻訳の準備、または再入力せずに貼り付ける必要がある引用など、必要な単語が閉じ込められる可能性があります。抽出は、通常のテキスト ツールへの橋渡しです。プレーン テキストはスクリプトやパイプラインの共通語であり、下流の迅速なステップでピクセル完璧な印刷レイアウトではなく単語だけが必要な瞬間です。スキャンの場合、OCR も問題の一部であり、スペル チェッカーはコンプライアンス担当者ではないため、ケース ID のサイレント 3 が 8 に変わってしまうことを防ぐために、注意深く読むことが依然としてオフィスの習慣になっています。抽出したテキストを新しい公式文書にする必要がある場合、多くのチームは編集のために PDF を Word に変換します。最終成果物がまだ PDF である場合は、新しいエクスポートがきれいに送信されるように PDF を電子メール用に圧縮することもできることを覚えておいてください。領収書をアップロードするフィールド ワーカー、論文パケットを提出するホーム オフィスの学生、そして依然として変更指示の承認を得なければならないプロジェクト マネージャーを想像してみてください。肩書きは異なりますが、時間のプレッシャーは同じです。「ちょうどいいものを開いて」デスクに来ることができない遠方の同僚や、礼儀正しいが忙しい顧客を想像してみてください。ファイル名とファイル構造は、あなたがそれらに示す敬意の一部です。確信が持てない場合は、金銭、署名、コンプライアンスに関する文言など、重要なページをいくつかプレビューしてください。これらのページは、ストレスが高いときにズームするページだからです。メールボックスの制限が厳しい場合、1 回のハンドオフで PDF をオンラインで無料で結合したり、スレッドがバウンスしたときに PDF を電子メール用に圧縮したり、再構築よりクイック編集の方が速い場合に PDF を Word に変換したり、リモートの承認者が連署を待っているときに PDF にオンラインで署名したりできることを知っておくと役立ちます。

エラーを減らして PDF 表をテキストに移動します

  1. テキストでは、グリッド線の表示をオンにし、表のプロパティを使用して、見えない境界線を表示します。これは、非表示の境界線が、変換後に行が飛び出す典型的な原因であるためです。
  2. 疑わしい行を新しい空の表にコピーして、表のスタイルに不正な間隔があるか、セル内に隠れている段落の問題があるかどうかをテストし、根本的な問題を修正します。
  3. PDF を再エクスポートし、合計とヘッダー行を比較します。特に金額や単位が表示される場合は、わずかなずれがスタイルの問題ではなくビジネス上の問題になる可能性があるためです。

FAQ: PDF 表をテキストに変換

表にはテキストの代わりに Excel を使用する必要がありますか?
大量の計算や並べ替えを行う場合は、Excel に移行してください。表が段落単位で編集する物語の一部である場合、テキストは適切なホームです。
PDF 内の表が複数のページに分割されている場合はどうなりますか?
Office PDF では場合によってはコンバーターがヘッダー行をデータ行として複製する可能性があるため、テキスト内で慎重に行を再結合し、ヘッダーの繰り返しに注意してください。
リスクを色分けした表のセルについてはどうでしょうか?
シェーディングは奇数の塗りつぶしとして変換できます。色がアクセシビリティのニーズを満たす必要がある場合は、テキストに条件付きシェーディングを再適用したり、テキストの重要な行を再マークしたりすることができます。
More versions