텍스트 추출

PDF 문서에서 텍스트 내용 추출

여기에 PDF 파일을 놓거나 클릭하여 업로드하세요.

PDF 파일을 여기에 드롭하세요.

파일이 너무 큼(최대 100MB)

PDF가 단어가 아닌 단어의 그림인 경우

PDF는 보기 쉽지만 RFP를 위한 긴 인용문, 데이터 정리, 번역 준비 또는 다시 입력하지 않고 붙여넣어야 하는 인용문 등 필요한 단어가 갇혀 있을 수 있습니다. 추출은 일반 텍스트 도구로 연결되는 다리입니다. OCR은 텍스트처럼 보이지만 신중하게 통과하고 이후에 주의 깊게 읽을 때까지 실제로 선택할 수 없는 스캔, 사진 및 PDF를 위한 것입니다. 스캔의 경우 OCR은 이야기의 일부이며 철자 검사기는 규정 준수 담당자가 아니기 때문에 케이스 ID에서 무음 3이 8로 바뀌는 것을 방지하는 사무실 습관은 주의 깊게 읽는 것입니다. 추출된 텍스트가 새로운 공식 문서가 되어야 하는 경우 많은 팀에서는 편집을 위해 PDF를 Word 패스로 변환하고, 최종 결과물이 여전히 PDF인 경우 새 내보내기가 깔끔하게 전달되도록 이메일용 PDF를 압축할 수도 있다는 점을 기억하세요. "올바른 책상을 열어보기" 위해 책상에 올 수 없는 원격 동료와 예의바르지만 바쁜 고객을 상상해 보십시오. 귀하의 파일 이름과 파일 구조는 귀하가 표시하는 존중의 일부입니다. 영수증을 업로드하는 현장 작업자, 논문 패킷을 제출하는 홈 오피스 학생, 변경 주문 승인을 받아야 하는 프로젝트 관리자를 생각해 보세요. 제목은 다르지만 시간 압박은 동일합니다. 좋은 습관은 파일 이름에 하나의 명확한 마스터 이름과 하나의 명확한 날짜를 유지하는 것입니다. 그러면 나중에 모두 비슷해 보이는 10개의 복사본을 열지 않고도 패킷을 찾을 수 있습니다. 하루의 다음 단계가 사서함 제한이 빡빡한 경우 단일 핸드오프를 위해 온라인에서 무료로 PDF를 병합하고, 스레드가 반송될 때 이메일용 PDF를 압축하고, 빠른 편집이 다시 작성보다 빠를 때 PDF를 Word로 변환하고, 원격 승인자가 연대 서명을 기다리고 있을 때 온라인으로 PDF에 서명할 수 있다는 것을 아는 것이 도움이 됩니다.

스캔한 PDF에서 수정할 수 있는 텍스트로 이동

  1. 스캔이 매우 왜곡된 경우 직선 가장자리로 다시 스캔해 보십시오. 왜냐하면 좋은 입력은 사무실 작업 흐름에서 항상 뛰어난 수정 소프트웨어보다 낫기 때문입니다.
  2. OCR 및 변환을 실행한 다음 텍스트 탐색 창을 사용하여 제목이 실제 개요 수준이 되었는지, 아니면 TOC에 대해 재구성해야 하는 굵은 선이 되었는지 확인하세요.
  3. 숫자와 고유 명사가 있는 모든 페이지를 천천히 읽고, 사진이 서명과 우표의 원본인 감사 요구를 위해 스캔 PDF를 보관하세요.

FAQ: 스캔한 PDF OCR을 텍스트로

OCR 이후 테이블이 보기 흉한 이유는 무엇입니까?
OCR은 테이블에서 셀 라인을 추측하거나 잘못된 셀을 병합할 수 있습니다. 몇 단어를 찔러넣는 것이 아니라 텍스트로 복잡한 표를 다시 작성해야 하는 경우가 많습니다.
손글씨는 어떻습니까?
손글씨는 OCR에서 신뢰할 수 없으므로 해당 콘텐츠를 수동으로 다시 입력하거나 법무팀에서 사람의 검토가 필요한 경우 대상 사진 작업 흐름으로 취급하십시오.
GDPR 또는 HIPAA에 따라 개인 데이터에 대한 OCR이 허용됩니까?
법적 위험은 기술적 세부 사항이 아니기 때문에 DPA를 확인하고, 승인된 공급업체와 처리 위치를 사용하고, 임의의 도구를 통해 민감한 스캔을 보내지 마십시오.
More versions