Guía de selección: ¿Qué arquitectura OCR elegir?

Por Walter Milstein

A lo largo de esta serie, hemos presentado tres arquitecturas para procesamiento masivo de documentos, cada una con fortalezas distintas. Este artículo final consolida todo lo aprendido en una guía práctica de decisión para ayudarte a elegir la arquitectura correcta según tu caso de uso específico.

Resumen ejecutivo de las arquitecturas

Árbol de decisión rápido

Responde estas preguntas en orden para identificar tu arquitectura recomendada:

Pregunta 1: ¿Necesitas tolerancia a fallos automática?

SÍ → Continúa a Pregunta 2

NO → Arquitectura 2 (máxima velocidad, mínima complejidad)

Pregunta 2: ¿Tienes múltiples GPUs disponibles?

SÍ → Arquitectura 3 (máximo throughput con tolerancia a fallos)

NO → Continúa a Pregunta 3

Pregunta 3: ¿Necesitas calidad OCR máxima (300 DPI)?

SÍ → Arquitectura 1 (robustez + calidad)

NO → Arquitectura 2 (velocidad sobre calidad)

Guía detallada por caso de uso

Caso 1: Digitalización de archivos históricos

Escenario: Banco con 20 años de contratos en papel escaneados, necesita hacerlos buscables para compliance.

Requerimientos: Alta precisión, tolerancia a fallos, proceso puede tomar días.

Recomendación: Arquitectura 1

Razón: 300 DPI preserva detalles de documentos antiguos; tolerancia a fallos maneja interrupciones en procesos largos; pipeline RAG integrado para búsqueda posterior.

Caso 2: Procesamiento diario de facturas

Escenario: Empresa procesa 5,000 facturas diarias, necesita extraer datos para sistema contable.

Requerimientos: Velocidad, bajo costo operacional, formato de documentos consistente.

Recomendación: Arquitectura 2

Razón: Facturas tienen formato estándar con fuentes claras; 100 DPI es suficiente; simplicidad de despliegue para operación diaria; si falla, se reinicia manualmente (volumen manejable).

Caso 3: Pipeline RAG para chatbot corporativo

Escenario: Consultora quiere que empleados hagan preguntas sobre 100,000 documentos internos.

Requerimientos: Búsqueda semántica funcional, calidad "suficientemente buena", procesamiento único inicial.

Recomendación: Arquitectura 2 + pipeline RAG externo

Razón: RAG tolera errores de OCR porque busca similitud semántica, no exactitud textual; velocidad importa para procesamiento inicial masivo; agregar chunking + embeddings + Weaviate por separado.

Caso 4: Transcripción de documentos médicos

Escenario: Hospital digitalizando historiales de pacientes donde errores tienen consecuencias serias.

Requerimientos: Máxima precisión, auditoría, cumplimiento normativo.

Recomendación: Arquitectura 1 o servicio comercial

Razón: 300 DPI esencial; considerar GPT-4o para reconstrucción de términos médicos; evaluar si el CER de 24.78% es aceptable—si no, usar Azure Document Intelligence para documentos críticos.

Caso 5: Startup procesando millones de documentos

Escenario: Fintech procesando documentos de clientes a escala, tiempo es dinero, presupuesto para hardware.

Requerimientos: Máximo throughput, escalabilidad, robustez operacional.

Recomendación: Arquitectura 3 (cuando esté validada) o múltiples instancias de Arquitectura 2

Razón: 3 GPUs proyectan ~7,500 páginas/minuto; tolerancia a fallos crítica para operación 24/7; mientras Arq 3 no esté validada, correr múltiples servidores con Arq 2 independientes.

Matriz de decisión por requerimiento

Hardware recomendado por arquitectura

Configuración mínima viable

Arquitectura 1 y 2: Intel Core i7/Ryzen 7 (8+ cores), 32GB RAM, 1x RTX 3080/4070, SSD NVMe. Costo: ~$2,500-3,500 USD.

Arquitectura 3: 3x sistemas con configuración mínima, o 1 servidor con 3x GPUs. Costo: ~$8,000-15,000 USD.

Configuración óptima (usada en experimentos)

Intel Core i9 (32 cores), 128GB RAM DDR5, 2x Nvidia Cards, NVMe SSD. Costo: ~$5,000-7,000 USD.

Conclusión de la serie

A lo largo de siete artículos, hemos demostrado que el procesamiento masivo de documentos ya no requiere servicios cloud costosos ni infraestructura de datacenter. Con hardware de consumidor y software open-source, es posible alcanzar throughputs empresariales:

• 11,368 páginas en 4.3 minutos (Arquitectura 2, validado)

• ~7,500 páginas/minuto (Arquitectura 3 proyectada con 3 GPUs)

• Cero costos por página de API

• Sin dependencia de proveedores cloud

• Documentos sensibles nunca abandonan tu infraestructura

El trade-off entre velocidad (100 DPI) y calidad (300 DPI) está ahora cuantificado: 24.78% de degradación CER a cambio de 2.9x más velocidad. Esta información permite tomar decisiones informadas según los requerimientos específicos de cada caso de uso.

Las tres arquitecturas forman un espacio de soluciones coherente: Arquitectura 1 para robustez empresarial, Arquitectura 2 para máxima velocidad en un solo nodo, y Arquitectura 3 para escalado horizontal cuando el tiempo es absolutamente crítico.

La democratización del procesamiento de documentos a escala empresarial es una realidad. La pregunta ya no es si es posible, sino qué arquitectura elegir.

— Fin de la serie —