Error en textract

From Numera Wiki
Jump to navigation Jump to search

Textract es el servicio mediante al cual leemos los documentos con Inteligencia Artificial en Numera. El éxito en el proceso de lectura del documento es definitivo para el proceso de registro automático del soporte contable. En esta entrada procuramos presentarle los posibles errores que generan el error de lectura y los caminos para solucionarlos.

Los errores se generan por que AWS ha determinado unos límites para el uso del sistema. A continuación se presentan.

Errores que generan problemas en la Lectura del documento

  1. Error por los formatos de los archivos: La operación recibe los siguientes formatos de imágenes JPEG y PNG. Adicionalmente documentos en PDF. No recibe archivos que lleguen en el formato JPEG 2000.
  2. Error por el tamaño de los archivos: La operación recibe archivos que pesen hasta 10 megas (MB) si son e formato JPG o PNG. Si es un PDF hasta 500 megas (MG). Si se superan estos tamaños el sistema no leerá el documento.
  3. Error por número de hojas de un documento: El sistema procesa el archivo de PDF si no supera las 3000 páginas. Un documento con más páginas no eran leídos.
  4. Error por el tamaño de la letra: El sistema procesa los documentos que tengan textos que tengan una altura y profundidad que no supere 40 pulgadas o 2880 puntos.
  5. Error por contraseña en un PDF: El sistema no es capaz de procesar documentos en PDF que están protegidos por contraseña.
  6. Error por inclusión de imágenes en formato JPEG 2000 en un PDF: E

The maximum number of pages is 3,000, the maximum height and width is 40 inches and 2880 points. PDFs cannot be password protected. PDFs cannot contain JPEG 2000 formatted images. Document Rotation Amazon Textract supports all in-plane document rotations, for example 45 degree in-plane rotation. Text Alignment Text can be text aligned horizontally within the document. Amazon Textract does not support vertical text alignment within the document. Languages Amazon Textract supports English, Spanish, German, French, Italian, and Portuguese text detection. Amazon Textract will not return the language detected in its output. Character Size The minimum height for text to be detected is 15 pixels. At 150 DPI, this would be the same as 8 point font. Character Type Amazon Textract supports both handwritten and printed character recognition. Characters Amazon Textract supports the detection of numeric characters 0 to 9, English alphabetical characters, and the following special characters: !"#$%&()*+,-./:;=?@[\]^_`{|}~ °€£¥₹><