블로그로
tutorial 2026-06-14

이미지 OCR: 어떤 사진에서도 100+ 언어로 텍스트 추출 (2026)

이미지 OCR: 어떤 사진에서도 100+ 언어로 텍스트 추출

일본 식당 메뉴, 독일 도로 표지판, 손으로 쓴 강의 보드, 또는 회계 팀이 디지털화해야 하는 그 이상하게 형식이 잡힌 영수증의 사진을 찍습니다 —— 그리고 이제 손으로 입력하지 않고 복사-붙여넣기 가능한 형태로 텍스트를 원합니다. 그것이 OCR(광학 문자 인식)이며, 2026년에는 마침내 휴대폰에서, 브라우저에서, 100+ 언어로, 소스 이미지를 어디에도 업로드하지 않고 할 수 있을 정도로 충분히 좋아졌습니다.

이 가이드는 현대 OCR이 어떻게 작동하는지, Ai2Done의 Image to Text 도구 vs 휴대폰에 내장된 OCR vs 클라우드 API를 언제 사용해야 하는지, 그리고 공개적으로 게시하지 않을 모든 것 —— 여권, ID 카드, 명함, 의료 문서, 가계도 연구 등 —— 에 대해 로컬에서 OCR을 수행하는 프라이버시 추론을 설명합니다.

TL;DR

  • 소스 이미지에 민감한 정보(ID, 계약서, 의료)가 포함된 경우 Image to Text 도구를 사용하십시오 —— 브라우저에서 100% 실행.
  • 휴대폰 사진에서 캐주얼한 원탭 복사를 위해 iOS Live Text 또는 Google Lens 사용 —— 즉각적이지만 데이터가 클라우드에서 처리될 수 있음.
  • 표 구조 인식, 손글씨 또는 호출당 50+ 페이지와 같은 매우 특정한 기능이 필요할 때 클라우드 OCR(Google Cloud Vision, AWS Textract) 사용.
  • PDF의 경우 Extract Text 도구를 사용하십시오 —— PDF가 텍스트 기반(OCR 필요 없음)인지 또는 스캔됨(OCR 실행)인지 자동 감지합니다.
  • 100+ 언어의 경우 현대 Tesseract가 모두 지원합니다; 품질이 다양합니다(영어/중국어/일본어/한국어는 거의 완벽, 저자원 아프리카 및 인디크 스크립트는 다양).

이것이 보이는 것보다 어려운 이유

사진에서 텍스트를 읽는 것은 사소해 보입니다 —— 매일 눈으로 합니다. 컴퓨터의 경우 모두 상호 작용하는 세 가지 독립적인 문제를 해결해야 합니다:

  1. 감지: 이미지의 어디에 텍스트가 있습니까? 평면 문서 스캔의 경우 답은 "모든 곳"입니다. 실세계 사진(형광등 아래에서 각도로 들고 있는 식당 메뉴)에서 텍스트는 픽셀의 5%일 수 있고, 12° 회전되고, 부분적으로 그림자가 있고, 다채로운 배경과 겹칠 수 있습니다.
  2. 인식: 이 글리프는 어떤 문자입니까? 대문자 "I", 소문자 "l", 숫자 "1"은 대부분의 글꼴에서 시각적으로 거의 동일합니다. 일본어 한자 vs 간체 중국어는 30년 된 어려운 문제입니다. 문자가 동일하게 보이지만 다른 것을 의미하기 때문입니다.
  3. 레이아웃: 문자가 단어, 줄, 단락, 열로 어떤 읽기 순서로 조립되어야 합니까? 다중 열 신문 페이지나 표가 있는 송장은 문자별 인식과 완전히 별개의 ML 문제입니다.

2010년의 순진한 OCR 라이브러리는 깨끗한 흑백 스캔에 대해 (2)를 합리적으로 해결하고 실제 사진의 (1)과 (3)에서 실패했습니다. 현대 시스템은 종단 간 딥러닝을 사용합니다 —— 이미지를 가져와 읽기 순서로 텍스트를 방출하는 단일 신경망, 감지와 레이아웃을 암시적으로 처리합니다.

브라우저 측 OCR의 현재 최첨단은 LSTM 기반 인식이 있는 Tesseract 5(오픈 소스, Google이 운영)입니다. 100+ 언어를 지원하고, WebAssembly에서 빠르게 실행되며, 가장 일반적인 30개 언어에 대해 상업적 제공과 비교 가능한 정확성을 생성합니다.

방법 1: Ai2Done Image to Text(브라우저 측, 프라이버시 우선)

**Ai2Done Image to Text 도구**는 깨끗한 UI에 Tesseract.js(WebAssembly로 컴파일된 Tesseract 5)를 감쌉니다:

  1. 어떤 현대 브라우저에서든 /tools/image_to_text를 엽니다.
  2. 언어를 선택 —— 100+ 옵션의 드롭다운에서 선택하십시오. 다중 언어 문서(예: 영어 브랜드 이름이 있는 중국 식당 영수증)의 경우 한 번에 여러 언어를 선택할 수 있습니다.
  3. 이미지를 업로드 —— JPG, PNG, HEIC, WebP 또는 BMP를 드래그 앤 드롭하십시오. 도구는 클립보드에서 붙여넣기도 허용합니다(스크린샷에 편리).
  4. 2-15초 대기 —— Tesseract가 CPU에서 로컬로 실행됩니다. 첫 사용은 언어 모델(언어당 ~5 MB)을 다운로드합니다; 모델이 브라우저에 캐시되기 때문에 이후 실행은 즉각적입니다.
  5. 복사 또는 다운로드 —— 출력이 일반 텍스트로 나타납니다; OCR 레이어가 원본 이미지 위에 보이지 않지만 선택 가능한 검색 가능한 PDF로 내보낼 수도 있습니다.

전체가 브라우저에서 실행됩니다. 이미지, 언어 모델, 추출된 텍스트는 서버를 만지지 않습니다. 민감한 문서(여권, 의료 기록, 은행 명세서)의 경우 이것이 유일한 안전한 패턴입니다 —— 모든 OCR-as-a-service 제공은 적어도 디버깅 목적으로, 종종 더 오래 업로드된 이미지를 유지합니다.

정확성 팁:

  • 최상의 결과를 위해 소스 이미지는 적어도 300 DPI 동등(A4 페이지의 경우 ~1500×2000 px)이어야 합니다.
  • 가능하면 OCR 전에 똑바로 펴고 자르십시오 —— Tesseract는 최대 ~15° 회전을 우아하게 처리하지만 완벽하게 정렬된 텍스트에서 훨씬 더 잘 수행합니다.
  • 저대비 스캔의 경우 도구에는 Otsu의 방법을 사용하여 순수 흑백으로 변환하는 "이진화" 토글이 있습니다 —— 종종 희미하거나 누렇게 변한 페이지에서 10-15% 정확성 향상.
  • 다중 열 레이아웃: Tesseract가 열을 가로질러 읽지 않도록 **"열 감지"**를 활성화하십시오.

방법 2: iOS Live Text / Google Lens(휴대폰에서 원탭)

캐주얼한 일상 OCR의 경우 휴대폰에 내장된 OCR이 진정으로 마법 같습니다:

  • iOS Live Text(iOS 15+): 카메라를 어떤 텍스트로든 가리키고, 뷰파인더의 오른쪽 하단 모서리에 있는 표시기를 탭하고, 웹페이지에서처럼 정확히 텍스트를 선택합니다. iPhone 11 이상에서 오프라인으로 작동합니다; 오래된 기기는 클라우드 왕복으로 폴백합니다.
  • Google Lens(Android, Chrome, Google Photos): 같은 흐름, 약간 더 광범위한 언어 지원, 기본적으로 클라우드 측에서 실행되지만 Pixel 기기의 민감한 콘텐츠에 대해 "기기 내" 선호를 제공합니다.

둘 다 "이 식당 메뉴를 번역기 앱에 복사해야 합니다" 또는 "이 화이트보드 사진에서 친구의 전화번호를 보내주세요"에 완벽합니다. 다운로드 가능한 텍스트 파일이나 CSV에 도착해야 하는 모든 것의 경우 어색합니다 —— 여전히 각 청크를 노트 앱에 수동으로 복사해야 합니다.

방법 3: 클라우드 OCR API(규모나 특수 기능이 필요할 때)

수천 개의 문서를 처리하는 자동화된 파이프라인이나 일반 텍스트 추출 이상의 기능이 필요할 때:

  • Google Cloud Vision API —— 우수한 다중 언어 지원, 예외적인 손글씨 인식, 1000 이미지당 $1.50.
  • AWS Textract —— 양식과 표에 동급 최고(일반 텍스트가 아니라 구조화된 키-값 쌍과 표 셀을 반환), 기능에 따라 1000 페이지당 $1.50-50.
  • Azure Computer Vision —— 견고한 올라운더, Microsoft 365 워크플로우와 통합.

트레이드오프: 처리하는 모든 이미지가 제3자 서버로 전송되고 데이터 보존 정책당 유지됩니다(보통 디버깅용 30일). 비민감 데이터의 자동화된 비즈니스 워크플로우의 경우 괜찮습니다. 여권, 의료 기록, 계약서 또는 개인적인 모든 것의 경우 취하지 않을 프라이버시 단계입니다.

어떻게 빌드했는지(기술적 심층 분석)

Ai2Done Image to Text 도구는 다음에 빌드되었습니다:

  • Tesseract.js 5.1 —— WebAssembly로 컴파일된 Tesseract 5 LSTM. 코어 엔진은 ~1.5 MB gzip 압축입니다; 각 언어 모델은 5-20 MB입니다.
  • Lazy 언어 로딩 —— 100개의 언어 모델을 출하하지 않습니다; 브라우저가 선택한 언어만 요청 시 다운로드합니다. 모델은 브라우저의 HTTP 캐시에 캐시되므로 다시 로드가 즉각적입니다.
  • Web Worker 스레드 풀 —— 여러 이미지의 배치 OCR의 경우 크런치하는 동안 UI가 응답성을 유지하도록 navigator.hardwareConcurrency - 1까지 워커를 생성합니다.
  • 전처리 파이프라인 —— 이미지를 Tesseract에 핸드오프하기 전에 선택적 deskew(Hough 변환 사용), 이진화(Otsu의 방법), 대비 정규화를 실행합니다. 이러한 것은 물리적 문서의 휴대폰 사진에서 크게 도움이 됩니다.
  • 검색 가능한 PDF 내보내기 —— "OCR 오버레이" 출력의 경우 pdf-lib를 사용하여 원본 이미지와 올바른 문자 위치의 보이지 않는 텍스트 레이어를 구성합니다. 출력은 모든 리더가 열고, 검색하고, 복사할 수 있는 실제 PDF입니다.

매우 큰 이미지(한 변에 >4000 px)의 경우 OCR 전에 2000 px로 다운샘플링합니다. Tesseract의 정확성은 대부분의 글꼴에 대해 그 해상도 주위에서 평탄해지고, 추가 픽셀은 출력을 개선하지 않고 단지 속도를 늦춥니다.

FAQ

Q: 도구가 손글씨 텍스트를 지원합니까? A: 제한적. Tesseract 5에는 영어, 아랍어 및 몇 가지 다른 언어에 대한 실험적 손글씨 모델이 있지만 실제 손글씨의 정확성은 기껏해야 60-80%입니다. 진지한 손글씨 OCR의 경우 Google Cloud Vision 또는 Microsoft Azure의 Form Recognizer가 여전히 의미 있게 더 낫습니다. 주요 손글씨 업그레이드를 약속하는 Tesseract 6(2026년 후반 예상)를 추적하고 있습니다.

Q: 각 페이지를 먼저 스크린샷하지 않고 PDF를 직접 OCR할 수 있습니까? A: 예 —— Extract Text 도구를 사용하십시오. PDF를 열고, 각 페이지가 텍스트 기반(직접 추출)인지 또는 이미지 기반(OCR 실행)인지 감지하고, 결합된 텍스트 출력을 생성합니다.

Q: 내 중국어 / 일본어 / 한국어 OCR에 이상한 문자 대체가 있습니다. 왜죠? A: CJK 언어의 경우 올바른 언어 모델을 선택하는 것이 유럽 언어보다 더 중요합니다. 간체 중국어와 번체 중국어는 많은 문자를 공유하지만 일부에 다른 글리프 스타일을 사용합니다 —— 번체 중국어 문서에 chi_sim을 선택하면 미묘하게 잘못된 출력이 됩니다. 특정 변형(chi_sim, chi_tra, jpn, 세로 일본어용 jpn_vert, kor)을 선택하십시오.

Q: 실제로 얼마나 정확합니까? A: 잘 지원되는 언어(영어, 프랑스어, 스페인어, 독일어, 중국어, 일본어, 한국어, 러시아어, 아랍어)의 깨끗한 인쇄 텍스트에서 300 DPI에서 98-99.5% 문자 정확성을 기대하십시오. 일반 조명에서 휴대폰 사진의 경우 92-97%. 저자원 아프리카 또는 인디크 스크립트에서 때때로 더 낮습니다 —— Tesseract의 학습 데이터가 불균등합니다.

Q: 도구가 비디오에서 텍스트를 추출할 수 있습니까? A: 직접적이지 않습니다 —— 정지 이미지에서 작동합니다. 텍스트가 비디오 자막에 나타나면 대신 Audio to Text 도구를 사용하십시오(Whisper, OpenAI ASR 모델, 또한 브라우저 측 사용). 특정 비디오 프레임에서 텍스트를 잡아야 하는 경우 먼저 스크린샷한 다음 Image to Text를 실행하십시오.

Q: OCR이 각도로 찍은 사진에서 작동합니까? A: ~15° 회전 내에서 예. 심하게 기울어진 사진(테이블 건너편에서 찍음)의 경우 "자동 deskew" 옵션을 활성화하십시오. ~30° 회전을 넘어서면 결과가 빠르게 저하됩니다 —— 먼저 사진 앱에서 똑바로 펴고 OCR을 수행하십시오.

Q: 표 구조 데이터는 어떻습니까 —— 송장, 스프레드시트? A: Tesseract는 일반 텍스트를 반환하고 공백과 줄 바꿈으로 레이아웃을 근사합니다. 진정한 표 셀 구조(키-값 쌍, 다중 열 재무 보고서)의 경우 AWS Textract가 의미 있게 더 낫고 현재 유일한 합리적인 옵션입니다. 2026년 4분기에 브라우저 측 표 감지를 추가하고 있습니다.

지금 시도

어떤 이미지에서도 몇 초 안에 텍스트를 가져오십시오:

Image to Text 도구 열기 →

사진을 드래그-드롭하고, 언어를 선택하고, 텍스트를 받으십시오. 업로드 없음, 가입 없음, 워터마크 없음.

관련 읽기


최종 업데이트 2026-06-14. Image to Text OCR은 Tesseract.js를 사용하여 브라우저에서 100% 실행됩니다 —— 이미지는 기기를 떠나지 않습니다. 처리하는 것을 절대 수집, 로깅 또는 분석하지 않습니다.