Volver al blog
tutorial 2026-06-14

Image OCR: extrae texto de cualquier imagen en 100+ idiomas (2026)

Image OCR: extrae texto de cualquier imagen en 100+ idiomas

Sacas una foto de un menú de restaurante japonés, una señal de carretera alemana, una pizarra de clase escrita a mano o ese recibo raramente formateado que tu equipo de contabilidad necesita digitalizado — y ahora quieres el texto, en forma copy-pasteable, sin teclearlo a mano. Eso es OCR (Optical Character Recognition), y en 2026 finalmente es lo bastante bueno como para hacerlo en tu teléfono, en tu navegador, en 100+ idiomas, sin subir la imagen fuente a ningún sitio.

Esta guía explica cómo funciona el OCR moderno, cuándo usar la herramienta Image to Text de Ai2Done vs el OCR incorporado en tu teléfono vs APIs cloud, y el razonamiento de privacidad detrás de hacer OCR localmente para cualquier cosa que no postearías públicamente — pasaportes, DNIs, tarjetas de visita, documentos médicos, investigación de árbol genealógico, todo.

TL;DR

  • Usa la herramienta Image to Text cuando la imagen fuente contenga info sensible (DNIs, contratos, médico) — corre 100 % en tu navegador.
  • Usa iOS Live Text o Google Lens para copia casual de un tap desde una foto de teléfono — instantáneo, pero los datos pueden procesarse en la nube.
  • Usa OCR cloud (Google Cloud Vision, AWS Textract) cuando necesitas funciones muy específicas como reconocimiento de estructura de tabla, escritura a mano o 50+ páginas por llamada.
  • Para PDFs, usa la herramienta Extract Text — auto-detecta si el PDF es basado en texto (no se necesita OCR) o escaneado (corre OCR).
  • Para 100+ idiomas, el Tesseract moderno los soporta todos; la calidad varía (inglés/chino/japonés/coreano son casi perfectos, scripts africanos e índicos de bajos recursos varían).

Por qué esto es más difícil de lo que parece

Leer texto de una foto parece trivial — lo haces cada día con tus ojos. Para un ordenador requiere resolver tres problemas independientes que todos interactúan:

  1. Detección: ¿dónde en la imagen hay texto en absoluto? En un escaneo de documento plano, la respuesta es "en todas partes". En una foto del mundo real (menú de restaurante sostenido en ángulo bajo luz fluorescente), el texto podría ser el 5 % de los píxeles, rotado 12°, parcialmente sombreado y superponiéndose a un fondo colorido.
  2. Reconocimiento: ¿qué carácter es este glifo? Una "I" mayúscula, una "l" minúscula y el dígito "1" son visualmente casi idénticos en la mayoría de las fuentes. Kanji japonés vs chino simplificado es un problema duro de 30 años de antigüedad porque los caracteres se ven idénticos pero significan cosas diferentes.
  3. Layout: ¿en qué orden de lectura deben ensamblarse los caracteres en palabras, líneas, párrafos, columnas? Una página de periódico multicolumna o una factura con tablas es un problema ML enteramente separado del reconocimiento por carácter.

Las librerías OCR ingenuas de 2010 resolvían (2) razonablemente para escaneos limpios negro-sobre-blanco y fallaban en (1) y (3) en fotos reales. Los sistemas modernos usan deep learning end-to-end — una sola red neuronal que toma la imagen y emite texto en orden de lectura, manejando detección y layout implícitamente.

El estado del arte actual para OCR del lado del navegador es Tesseract 5 (open source, gestionado por Google) con reconocimiento basado en LSTM. Soporta 100+ idiomas, corre rápido en WebAssembly y produce precisión comparable a ofertas comerciales para los 30 idiomas más comunes.

Método 1: Ai2Done Image to Text (lado del navegador, privacy-first)

La herramienta Image to Text de Ai2Done envuelve Tesseract.js (Tesseract 5 compilado a WebAssembly) en una UI limpia:

  1. Abre /tools/image_to_text en cualquier navegador moderno.
  2. Elige el idioma — escoge de un dropdown de 100+ opciones. Para documentos multi-idioma (p. ej. un recibo de restaurante chino con nombres de marca en inglés), puedes seleccionar múltiples idiomas a la vez.
  3. Sube tu imagen — arrastra y suelta un JPG, PNG, HEIC, WebP o BMP. La herramienta también acepta pegado desde el portapapeles (útil para capturas).
  4. Espera 2-15 segundos — Tesseract corre localmente en tu CPU. El primer uso descarga el modelo de idioma (~5 MB por idioma); las corridas posteriores son instantáneas porque el modelo se cachea en tu navegador.
  5. Copia o descarga — la salida aparece como texto plano; también puedes exportar como un PDF buscable donde la capa OCR es invisible-pero-seleccionable sobre la imagen original.

Todo el asunto corre en tu navegador. La imagen, el modelo de idioma y el texto extraído nunca tocan un servidor. Para documentos sensibles (pasaportes, registros médicos, estados de cuenta) este es el único patrón seguro — cada oferta OCR-as-a-service retiene tu imagen subida al menos por propósitos de debugging, a menudo más.

Tips de precisión:

  • Para mejores resultados, la imagen fuente debería ser al menos equivalente a 300 DPI (~1500×2000 px para una página A4).
  • Endereza y recorta antes del OCR si puedes — Tesseract maneja hasta ~15° de rotación con gracia pero lo hace mucho mejor en texto perfectamente alineado.
  • Para escaneos de bajo contraste, la herramienta tiene un toggle "binarise" que convierte a blanco-y-negro puro usando el método de Otsu — a menudo un bump de precisión de 10-15 % en páginas tenues o amarilleadas.
  • Layouts multicolumna: activa "detect columns" para que Tesseract no lea a través de columnas.

Método 2: iOS Live Text / Google Lens (un tap en el teléfono)

Para OCR cotidiano casual, el OCR incorporado en tu teléfono es genuinamente mágico:

  • iOS Live Text (iOS 15+): apunta la cámara a cualquier texto, toca el indicador en la esquina inferior-derecha del viewfinder y selecciona texto exactamente como lo harías en una página web. Funciona offline en iPhone 11 y más nuevos; los dispositivos antiguos hacen fallback a un round-trip cloud.
  • Google Lens (Android, Chrome, Google Photos): mismo flujo, soporte ligeramente más amplio de idiomas, corre cloud-side por defecto pero ofrece una preferencia "on-device" para contenido sensible en dispositivos Pixel.

Ambos son perfectos para "necesito copiar este menú de restaurante a una app de traducción" o "envíame el número de teléfono de mi amigo desde esta foto de pizarra". Para cualquier cosa que necesite aterrizar en un archivo de texto descargable o un CSV, son incómodos — aún tienes que copiar manualmente cada chunk a una app de notas.

Método 3: APIs OCR cloud (cuando necesitas escala o funciones especiales)

Para pipelines automatizados procesando miles de documentos, o cuando necesitas funciones más allá de extracción de texto plano:

  • Google Cloud Vision API — excelente soporte multi-idioma, reconocimiento excepcional de escritura a mano, $1,50 por 1000 imágenes.
  • AWS Textract — best-in-class para formularios y tablas (devuelve pares key-value estructurados y celdas de tabla, no solo texto plano), $1,50-50 por 1000 páginas dependiendo de las funciones.
  • Azure Computer Vision — todoterreno sólido, integrado con flujos Microsoft 365.

El trade-off: cada imagen que procesas se envía a un servidor de terceros y se retiene según su política de retención de datos (normalmente 30 días para debugging). Para flujos automatizados de negocio en datos no-sensibles esto está bien. Para pasaportes, registros médicos, contratos o cualquier cosa personal, es un paso de privacidad que puede que no quieras dar.

Cómo lo construimos (deep-dive técnico)

La herramienta Image to Text de Ai2Done está construida sobre:

  • Tesseract.js 5.1 — Tesseract 5 LSTM compilado a WebAssembly. El engine core es ~1,5 MB gzipped; cada modelo de idioma es 5-20 MB.
  • Carga lazy de idiomas — no enviamos 100 modelos de idioma; el navegador descarga solo los idiomas que seleccionas, bajo demanda. Los modelos se cachean en el cache HTTP del navegador para que la recarga sea instantánea.
  • Pool de threads Web Worker — para OCR batch de múltiples imágenes, spawneamos workers hasta navigator.hardwareConcurrency - 1 para mantener la UI responsiva mientras crunchea.
  • Pipeline de preprocesado — antes de entregar la imagen a Tesseract, corremos deskew opcional (usando Hough transform), binarización (método de Otsu) y normalización de contraste. Estos ayudan significativamente en fotos de teléfono de documentos físicos.
  • Exportación PDF buscable — para la salida "OCR overlay", usamos pdf-lib para componer la imagen original más una capa de texto invisible en las posiciones de carácter correctas. La salida es un PDF real que cualquier reader puede abrir, buscar y copiar.

Para imágenes muy grandes (>4000 px de lado), hacemos downsample a 2000 px antes del OCR. La precisión de Tesseract se aplana alrededor de esa resolución para la mayoría de las fuentes, y los píxeles extra solo ralentizan sin mejorar la salida.

FAQ

Q: ¿La herramienta soporta texto a mano? A: Limitado. Tesseract 5 tiene modelos experimentales de escritura a mano para inglés, árabe y unos pocos otros, pero la precisión en escritura real es 60-80 % en el mejor caso. Para OCR de escritura a mano serio, Google Cloud Vision o Form Recognizer de Microsoft Azure son aún significativamente mejores. Estamos siguiendo Tesseract 6 (esperado a finales de 2026) que promete un upgrade mayor de escritura a mano.

Q: ¿Puedo OCRear un PDF directamente sin capturar cada página primero? A: Sí — usa la herramienta Extract Text. Abre el PDF, detecta si cada página es basada en texto (extrae directamente) o basada en imagen (corre OCR), y produce una salida de texto combinada.

Q: Mi OCR chino / japonés / coreano tiene sustituciones de caracteres raras. ¿Por qué? A: Para idiomas CJK, elegir el modelo de idioma correcto importa más que para idiomas europeos. El chino simplificado y el chino tradicional comparten muchos caracteres pero usan estilos de glifo diferentes para algunos — elegir chi_sim para un documento en chino tradicional da salida sutilmente equivocada. Elige la variante específica (chi_sim, chi_tra, jpn, jpn_vert para japonés vertical, kor).

Q: ¿Qué tan preciso es realmente? A: En texto impreso limpio en idiomas bien soportados (inglés, francés, español, alemán, chino, japonés, coreano, ruso, árabe), espera 98-99,5 % de precisión de carácter a 300 DPI. En fotos de teléfono con iluminación típica, 92-97 %. En scripts africanos o índicos de bajos recursos, a veces menor — los datos de entrenamiento de Tesseract son desiguales.

Q: ¿Puede la herramienta extraer texto de un vídeo? A: No directamente — opera sobre imágenes fijas. Si tu texto aparece en subtítulos de vídeo, usa la herramienta Audio to Text en su lugar (que usa Whisper, el modelo ASR de OpenAI, también lado del navegador). Si necesitas agarrar texto de un frame específico de vídeo, captura primero y luego corre Image to Text.

Q: ¿Funcionará OCR en fotos tomadas en ángulo? A: Sí dentro de ~15° de rotación. Para fotos severamente inclinadas (tomadas desde el otro lado de una mesa), activa la opción "auto-deskew". Más allá de ~30° de rotación, los resultados se degradan rápidamente — endereza primero en tu app de foto y luego haz OCR.

Q: ¿Y qué hay de datos estructurados en tabla — facturas, hojas de cálculo? A: Tesseract devuelve texto plano y aproxima el layout con whitespace y line breaks. Para estructura genuina de celda de tabla (pares key-value, informes financieros multicolumna), AWS Textract es significativamente mejor y actualmente la única opción razonable. Estamos añadiendo detección de tabla del lado del navegador en Q4 2026.

Pruébalo ahora

Saca texto de cualquier imagen en segundos:

Abre la herramienta Image to Text →

Arrastra y suelta una foto, elige el/los idioma(s), obtén texto. Sin subida, sin signup, sin marca de agua.

Lecturas relacionadas


Última actualización 2026-06-14. El Image to Text OCR corre 100 % en tu navegador usando Tesseract.js — tus imágenes nunca abandonan tu dispositivo. Nunca recopilamos, logueamos ni analizamos lo que procesas.