Text extrahieren

Extrahieren Sie Textinhalte aus PDF-Dokumenten

Legen Sie hier eine PDF-Datei ab oder klicken Sie zum Hochladen

Legen Sie die PDF-Datei hier ab

Datei zu groß (maximal 100 MB)

Wenn das PDF ein Bild aus Wörtern ist, nicht aus Wörtern

Eine PDF-Datei ist leicht zu lesen, aber die Wörter, die Sie benötigen, sind möglicherweise eingeschlossen: lange Zitate für Ausschreibungen, Datenbereinigung, Übersetzungsvorbereitung oder ein Zitat, das Sie einfügen müssen, ohne es noch einmal einzugeben.Die Extraktion ist die Brücke zu normalen Textwerkzeugen.OCR eignet sich für Scans, Fotos und PDFs, die wie Text aussehen, aber bis zu einem sorgfältigen Durchgang und anschließendem sorgfältigen Lesen nie wirklich auswählbar waren.Bei Scans ist OCR Teil der Geschichte, und sorgfältiges Lesen ist immer noch die Bürogewohnheit, die verhindert, dass eine stille 3 in einer Fall-ID zu einer 8 wird, weil der Rechtschreibprüfer kein Compliance-Beauftragter ist.Wenn extrahierter Text in ein neues offizielles Dokument umgewandelt werden muss, führen viele Teams zur Bearbeitung eine Konvertierung von PDF in Word durch. Wenn das Endergebnis immer noch eine PDF-Datei ist, denken Sie daran, dass Sie PDF auch für E-Mails komprimieren können, damit der neue Export sauber übertragen wird.Stellen Sie sich einen entfernten Kollegen vor, der nicht an Ihren Schreibtisch kommen kann, um „einfach das Richtige zu öffnen“, und einen Kunden, der höflich, aber beschäftigt ist;Ihr Dateiname und Ihre Dateistruktur sind Teil des Respekts, den Sie ihnen entgegenbringen.Stellen Sie sich einen Außendienstmitarbeiter vor, der Quittungen hochlädt, einen Home-Office-Studenten, der ein Paket seiner Abschlussarbeit einreicht, und einen Projektmanager, der noch die Genehmigung für einen Änderungsauftrag einholen muss: unterschiedliche Titel, der gleiche Zeitdruck.Eine gute Angewohnheit ist es, einen offensichtlichen Masternamen und ein offensichtliches Datum im Dateinamen beizubehalten, damit Sie das Paket in Zukunft finden können, ohne zehn Kopien öffnen zu müssen, die alle gleich aussehen.Wenn der nächste Schritt in Ihrem Tag ein knappes Postfachlimit ist, ist es hilfreich zu wissen, dass Sie PDF-Dateien für eine einzelne Übergabe kostenlos online zusammenführen, PDF-Dateien für E-Mails komprimieren können, wenn ein Thread zurückspringt, PDF-Dateien in Word konvertieren können, wenn eine schnelle Bearbeitung schneller ist als eine Neuerstellung, und PDF-Dateien online signieren können, wenn Remote-Genehmiger auf eine Gegenzeichnung warten.

Wechseln Sie von einer gescannten PDF-Datei zu einem Text, den Sie korrigieren können

  1. Wenn der Scan sehr verzerrt ist, versuchen Sie, einen erneuten Scan mit geraden Kanten zu erhalten, denn im Büro-Workflow ist eine gute Eingabe immer besser als eine heroische Korrektursoftware.
  2. Führen Sie OCR und Konvertierung durch und verwenden Sie dann den Navigationsbereich des Textes, um zu sehen, ob Überschriften zu echten Gliederungsebenen wurden oder nur fette Linien, die Sie für ein Inhaltsverzeichnis umstrukturieren müssen.
  3. Lesen Sie jede Seite mit Zahlen und Eigennamen langsam durch und bewahren Sie das Scan-PDF für Prüfungszwecke auf, bei denen das Bild die Quelle der Wahrheit für Unterschriften und Stempel ist.

FAQs: Gescannte PDF-OCR in Text umwandeln

Warum sind Tabellen nach OCR hässlich?
OCR kann Zelllinien erraten oder Zellen in Tabellen falsch zusammenführen;Sie müssen häufig komplexe Tabellen im Text neu aufbauen und nicht ein paar Wörter verschieben.
Was ist mit der Handschrift?
Handschrift ist für OCR unzuverlässig. Behandeln Sie diesen Inhalt daher als manuelles Abtippen oder als gezielten Foto-Workflow, wenn eine Rechtsabteilung eine menschliche Überprüfung erfordert.
Ist OCR für personenbezogene Daten gemäß DSGVO oder HIPAA in Ordnung?
Überprüfen Sie Ihre DPA, nutzen Sie zugelassene Anbieter und Verarbeitungsstandorte und vermeiden Sie den Versand vertraulicher Scans über zufällige Tools, da das rechtliche Risiko kein technisches Detail ist.
More versions