Error en textract

From Numera Wiki
Jump to navigation Jump to search

Textract es el servicio mediante al cual leemos los documentos con Inteligencia Artificial en Numera. El éxito en el proceso de lectura del documento es definitivo para el proceso de registro automático del soporte contable. En esta entrada procuramos presentarle los posibles errores que generan el error de lectura y los caminos para solucionarlos.

Los errores se generan por que AWS ha determinado unos límites para el uso del sistema. A continuación se presentan.

Errores que generan problemas en la Lectura del documento

  1. Error por los formatos de los archivos: La operación recibe los siguientes formatos de imágenes JPEG y PNG. Adicionalmente documentos en PDF. No recibe archivos que lleguen en el formato JPEG 2000.
  2. Error por el tamaño de los archivos: La operación recibe archivos que pesen hasta 10 megas (MB) si son el formato JPG o PNG. Si es un PDF hasta 500 megas (MG). Si se superan estos tamaños el sistema no leerá el documento.
  3. Error por número de hojas de un documento: El sistema procesa el archivo de PDF si no supera las 3000 páginas. Un documento con más páginas no será leído.
  4. Error por el tamaño de la letra: El sistema procesa los documentos que tengan textos que tengan una altura y profundidad que no supere 40 pulgadas o 2880 puntos.
  5. Error por contraseña en un PDF: El sistema no es capaz de procesar documentos en PDF que están protegidos por contraseña.
  6. Error por inclusión de imágenes en formato JPEG 2000 en un PDF: El sistema de lectura no es capaz de leer documentos que traigan insertado una imagen en JPEG 2000

Otras características a tener en cuenta

  1. Rotación del documento: El sistema es capaz de procesar documentos que no están verticales si son homogéneos, es decir si todo el documento esta rotado, si tiene diferentes orientaciones dentro del documento no lo podrá leer.
  2. Alineación del texto: No se puede leer documentos que tengan la información escrita de manera vertical, únicamente horizontal.
  3. Lenguajes: El sistema soporta textos en Ingles, Español, Aleman, Frances, Italiano y Portugués.
  4. Tamaño del texto a leer: El tamaño mínimo para leer un documento serán 15 pixeles, equivalente a tamaño de letra 8.
  5. Caracteres especiales que son detectados dentro de la herramienta: Además de los números y los signos alfabéticos del ingles se leen los siguientes caracteres dentro del sistema: !"#$%&()*+,-./:;=?@[\]^_`{|}~ °€£¥₹><

Soluciones a problemas con la lectura del documento