OCR de imagem: extraia texto de qualquer foto em 100+ idiomas (2026)
OCR de imagem: extraia texto de qualquer foto em 100+ idiomas
Você tira uma foto de um cardápio de restaurante japonês, uma placa de trânsito alemã, um quadro de aula manuscrito ou aquele recibo formatado de jeito estranho que seu time de contabilidade precisa digitalizar — e agora você quer o texto, num formato copy-paste, sem digitar à mão. Isso é OCR (Optical Character Recognition), e em 2026 finalmente está bom o suficiente para você fazer no seu celular, no seu navegador, em 100+ idiomas, sem subir a imagem fonte para lugar nenhum.
Este guia explica como o OCR moderno funciona, quando usar a ferramenta Image to Text do Ai2Done vs. o OCR incorporado no seu celular vs. APIs de nuvem, e o raciocínio de privacidade por trás de fazer OCR localmente para qualquer coisa que você não postaria publicamente — passaportes, IDs, cartões de visita, documentos médicos, pesquisa genealógica, tudo.
TL;DR
- Use a Image to Text tool quando a imagem fonte contém info sensível (IDs, contratos, médico) — roda 100 % no seu navegador.
- Use o iOS Live Text ou Google Lens para cópia casual de um toque a partir de uma foto do celular — instantâneo, mas dados podem ser processados na nuvem.
- Use OCR de nuvem (Google Cloud Vision, AWS Textract) quando você precisa de features muito específicas como reconhecimento de estrutura de tabela, manuscrito ou 50+ páginas por chamada.
- Para PDFs, use a Extract Text tool — auto-detecta se o PDF é baseado em texto (sem OCR necessário) ou escaneado (OCR roda).
- Para 100+ idiomas, o Tesseract moderno suporta todos; a qualidade varia (inglês/chinês/japonês/coreano são quase perfeitos, scripts africanos e índicos de baixo recurso variam).
Por que isso é mais difícil do que parece
Ler texto de uma foto parece trivial — você faz todo dia com os olhos. Para um computador exige resolver três problemas independentes que interagem entre si:
- Detecção: onde na imagem há texto? Num scan de documento plano, a resposta é “em todo lugar”. Numa foto do mundo real (cardápio de restaurante segurado em ângulo sob iluminação fluorescente), o texto pode ser 5 % dos pixels, rotacionado 12°, parcialmente sombreado e sobreposto a um fundo colorido.
- Reconhecimento: que caractere é este glifo? Um “I” maiúsculo, um “l” minúsculo e o dígito “1” são visualmente quase idênticos na maioria das fontes. Kanji japonês vs. chinês simplificado é um problema difícil de 30 anos porque os caracteres parecem idênticos mas significam coisas diferentes.
- Layout: em que ordem de leitura os caracteres deveriam ser montados em palavras, linhas, parágrafos, colunas? Uma página de jornal multi-coluna ou uma fatura com tabelas é um problema de ML inteiramente separado do reconhecimento por caractere.
Libs de OCR ingênuas de 2010 resolviam (2) razoavelmente para scans pretos sobre brancos limpos e falhavam em (1) e (3) em fotos reais. Sistemas modernos usam deep learning de ponta a ponta — uma única rede neural que pega a imagem e emite texto em ordem de leitura, lidando com detecção e layout implicitamente.
O state-of-the-art atual para OCR no navegador é Tesseract 5 (open source, mantido pelo Google) com reconhecimento baseado em LSTM. Suporta 100+ idiomas, roda rápido em WebAssembly e produz precisão comparável a ofertas comerciais para os 30 idiomas mais comuns.
Método 1: Ai2Done Image to Text (no navegador, privacy-first)
A ferramenta Image to Text do Ai2Done embrulha Tesseract.js (Tesseract 5 compilado para WebAssembly) numa UI limpa:
- Abra /tools/image_to_text em qualquer navegador moderno.
- Escolha o idioma — escolha num dropdown de 100+ opções. Para documentos multilíngues (ex.: um recibo de restaurante chinês com nomes de marca em inglês), pode selecionar múltiplos idiomas de uma vez.
- Suba sua imagem — arraste-e-solte um JPG, PNG, HEIC, WebP ou BMP. A ferramenta também aceita um paste do clipboard (útil para screenshots).
- Espere 2-15 segundos — Tesseract roda localmente na sua CPU. O primeiro uso baixa o modelo de idioma (~5 MB por idioma); execuções subsequentes são instantâneas porque o modelo é cacheado no seu navegador.
- Copie ou baixe — a saída aparece como texto puro; você também pode exportar como um PDF pesquisável onde a camada OCR é invisível-mas-selecionável sobre a imagem original.
A coisa toda roda no seu navegador. A imagem, o modelo de idioma e o texto extraído nunca tocam um servidor. Para documentos sensíveis (passaportes, prontuários médicos, extratos bancários) esse é o único padrão seguro — toda oferta OCR-as-a-service retém sua imagem subida pelo menos para fins de debug, frequentemente mais tempo.
Dicas de precisão:
- Para melhores resultados, a imagem fonte deve ter pelo menos o equivalente a 300 DPI (~1500×2000 px para uma página A4).
- Endireite e recorte antes do OCR se puder — Tesseract lida com até ~15° de rotação graciosamente mas fica muito melhor em texto perfeitamente alinhado.
- Para scans de baixo contraste, a ferramenta tem um toggle “binarize” que converte para preto-e-branco puro usando o método de Otsu — frequentemente um boost de precisão de 10-15 % em páginas fracas ou amareladas.
- Layouts multi-coluna: ative “detectar colunas” para o Tesseract não ler atravessando colunas.
Método 2: iOS Live Text / Google Lens (um toque no celular)
Para OCR casual do dia a dia, o OCR incorporado no seu celular é genuinamente mágico:
- iOS Live Text (iOS 15+): aponte a câmera para qualquer texto, toque no indicador no canto inferior direito do viewfinder e selecione texto exatamente como faria numa página web. Funciona offline em iPhone 11 e mais novos; dispositivos antigos caem em um round-trip de nuvem.
- Google Lens (Android, Chrome, Google Fotos): mesmo fluxo, suporte ligeiramente mais amplo de idiomas, roda no lado da nuvem por padrão mas oferece uma preferência “no dispositivo” para conteúdo sensível em dispositivos Pixel.
Os dois são perfeitos para “preciso copiar este cardápio num app tradutor” ou “me mande o número do meu amigo desta foto de quadro branco”. Para qualquer coisa que precise pousar num arquivo de texto baixável ou num CSV, são desajeitados — você ainda tem que copiar manualmente cada pedaço para um app de notas.
Método 3: APIs de OCR de nuvem (quando você precisa de escala ou features especiais)
Para pipelines automatizados processando milhares de documentos, ou quando você precisa de features além da extração de texto simples:
- Google Cloud Vision API — excelente suporte multilíngue, reconhecimento de manuscrito excepcional, US$ 1,50 por 1000 imagens.
- AWS Textract — best-in-class para formulários e tabelas (retorna pares chave-valor estruturados e células de tabela, não só texto puro), US$ 1,50-50 por 1000 páginas dependendo das features.
- Azure Computer Vision — all-rounder sólido, integrado com fluxos Microsoft 365.
O trade-off: toda imagem que você processa é enviada para um servidor terceiro e retida conforme a política de retenção de dados deles (geralmente 30 dias para debug). Para fluxos de negócio automatizados em dados não sensíveis isso está bem. Para passaportes, prontuários médicos, contratos ou qualquer coisa pessoal, é um passo de privacidade que você pode não querer dar.
Como construímos (deep-dive técnico)
A ferramenta Image to Text do Ai2Done é construída sobre:
- Tesseract.js 5.1 — Tesseract 5 LSTM compilado para WebAssembly. O engine core é ~1,5 MB gzipped; cada modelo de idioma é 5-20 MB.
- Carregamento preguiçoso de idioma — não entregamos 100 modelos de idioma; o navegador baixa só os idiomas que você selecionar, sob demanda. Os modelos cacheiam no cache HTTP do navegador para que o reload seja instantâneo.
- Pool de threads de Web Worker — para OCR em lote de múltiplas imagens, spawnamos workers até
navigator.hardwareConcurrency - 1para manter a UI responsiva enquanto processa. - Pipeline de pré-processamento — antes de entregar a imagem ao Tesseract, rodamos deskew opcional (usando transformada de Hough), binarização (método de Otsu) e normalização de contraste. Eles ajudam significativamente em fotos de celular de documentos físicos.
- Export PDF pesquisável — para a saída “overlay OCR”, usamos
pdf-libpara compor a imagem original mais uma camada de texto invisível nas posições corretas de caractere. A saída é um PDF real que qualquer leitor pode abrir, buscar e copiar.
Para imagens muito grandes (>4000 px de lado), reduzimos para 2000 px antes do OCR. A precisão do Tesseract platôs em torno dessa resolução para a maioria das fontes, e os pixels extras só atrasam as coisas sem melhorar a saída.
FAQ
Q: A ferramenta suporta texto manuscrito? A: Limitado. Tesseract 5 tem modelos experimentais de manuscrito para inglês, árabe e poucos outros, mas a precisão em manuscrito real é 60-80 % no melhor. Para OCR de manuscrito sério, Google Cloud Vision ou Form Recognizer do Microsoft Azure ainda são significativamente melhores. Estamos acompanhando o Tesseract 6 (esperado final de 2026) que promete um grande upgrade de manuscrito.
Q: Posso fazer OCR de um PDF diretamente sem fazer screenshot de cada página primeiro? A: Sim — use a Extract Text tool. Ela abre o PDF, detecta se cada página é baseada em texto (extrai diretamente) ou baseada em imagem (roda OCR) e produz uma saída de texto combinada.
Q: Meu OCR chinês / japonês / coreano tem substituições de caractere estranhas. Por quê?
A: Para idiomas CJK, escolher o modelo de idioma correto importa mais que para idiomas europeus. Chinês simplificado e chinês tradicional compartilham muitos caracteres mas usam estilos de glifo diferentes para alguns — escolher chi_sim para um documento em chinês tradicional dá saída sutilmente errada. Escolha a variante específica (chi_sim, chi_tra, jpn, jpn_vert para japonês vertical, kor).
Q: Quão precisa é de verdade? A: Em texto impresso limpo em idiomas bem suportados (inglês, francês, espanhol, alemão, chinês, japonês, coreano, russo, árabe), espere 98-99,5 % de precisão de caractere a 300 DPI. Em fotos de celular sob iluminação típica, 92-97 %. Em scripts africanos ou índicos de baixo recurso, às vezes mais baixo — os dados de treinamento do Tesseract são desiguais.
Q: A ferramenta pode extrair texto de um vídeo? A: Não diretamente — opera em imagens estáticas. Se seu texto aparece em legendas de vídeo, use a Audio to Text tool em vez disso (que usa Whisper, o modelo ASR da OpenAI, também no navegador). Se você precisa pegar texto de um frame específico de vídeo, faça screenshot primeiro e rode Image to Text.
Q: OCR vai funcionar em fotos tiradas em ângulo? A: Sim dentro de ~15° de rotação. Para fotos severamente inclinadas (tiradas do outro lado de uma mesa), ative a opção “auto-deskew”. Além de ~30° de rotação, resultados degradam rapidamente — endireite no seu app de foto primeiro, depois OCR.
Q: E sobre dados estruturados em tabela — faturas, planilhas? A: Tesseract retorna texto puro e aproxima layout com espaços em branco e quebras de linha. Para estrutura genuína de célula de tabela (pares chave-valor, relatórios financeiros multi-coluna), AWS Textract é significativamente melhor e atualmente a única opção razoável. Estamos adicionando detecção de tabela no navegador em Q4 2026.
Experimente agora
Puxe texto de qualquer imagem em segundos:
Abra a ferramenta Image to Text →
Arraste uma foto, escolha o(s) idioma(s), receba texto. Sem upload, sem signup, sem marca d’água.
Leituras relacionadas
- Conversão HEIC para JPG: o jeito certo em cada dispositivo — converta fotos de iPhone antes do OCR
- PDF para JPG vs PDF para PNG: qual escolher? — para fazer OCR de PDFs como imagens
- Overview de todas as ferramentas Ai2Done
- Navegue por todas as ferramentas de imagem e ferramentas de OCR
Última atualização 2026-06-14. O Image to Text OCR roda 100 % no seu navegador usando Tesseract.js — suas imagens nunca deixam seu dispositivo. Nunca coletamos, logamos ou analisamos o que você processa.