Difference between revisions of "Error en textract"

From Numera Wiki
Jump to navigation Jump to search
Line 4: Line 4:
  
 
==Errores que generan problemas en la Lectura del [[documento]]==
 
==Errores que generan problemas en la Lectura del [[documento]]==
# '''Error por los formatos de los archivos''': La operación recibe los siguientes formatos de imágenes JPEG y PNG. Adicionalmente documentos en PDF. No recibe archivos que lleguen en el formato JPEG 2000.
+
# '''Error por los formatos de los archivos''': La operación recibe los siguientes formatos de imágenes [[JPEG]] y [[PNG]]. Adicionalmente documentos en [[PDF]]. No recibe archivos que lleguen en el formato [[JPEG 2000]].
# '''Error por el tamaño de los archivos''': La operación recibe archivos que pesen hasta 10 megas (MB) si son e formato JPG o PNG. Si es un PDF hasta 500 megas (MG). Si se superan estos tamaños el sistema no leerá el documento.  
+
# '''Error por el tamaño de los archivos''': La operación recibe archivos que pesen hasta 10 megas (MB) si son el formato [[JPG]] o [[PNG]]. Si es un [[PDF]] hasta 500 megas (MG). Si se superan estos tamaños el sistema no leerá el documento.  
# '''Error por número de hojas de un documento''': El sistema procesa el archivo de PDF si no supera las 3000 páginas. Un documento con más páginas no eran leídos.
+
# '''Error por número de hojas de un documento''': El sistema procesa el archivo de [[PDF]] si no supera las 3000 páginas. Un documento con más páginas no será leído.
# '''Error por el tamaño de la letra''': El sistema procesa los documentos que tengan textos que tengan una altura y profundidad que no supere 40 pulgadas o 2880 puntos.  
+
# '''Error por el tamaño de la letra''': El sistema procesa los documentos que tengan textos que tengan una altura y profundidad que no supere 40 [[pulgadas]] o 2880 [[puntos]].  
 
# '''Error por contraseña en un PDF''': El sistema no es capaz de procesar documentos en PDF que están protegidos por contraseña.  
 
# '''Error por contraseña en un PDF''': El sistema no es capaz de procesar documentos en PDF que están protegidos por contraseña.  
# '''Error por inclusión de imágenes en formato JPEG 2000 en un PDF''': E
+
# '''Error por inclusión de imágenes en formato [[JPEG 2000]] en un [[PDF]]''': El sistema de lectura no es capaz de leer documentos que traigan insertado una imagen en [[JPEG 2000]]
  
The maximum number of pages is 3,000, the maximum height and width is 40 inches and 2880 points. PDFs cannot be password protected. PDFs cannot contain JPEG 2000 formatted images.
+
==Otras características a tener en cuenta==
Document Rotation
+
#'''Rotación del documento''': El sistema es capaz de procesar documentos que no están verticales si son homogéneos, es decir si todo el documento esta rotado, si tiene diferentes orientaciones dentro del documento no lo podrá leer.  
Amazon Textract supports all in-plane document rotations, for example 45 degree in-plane rotation.
+
#'''Alineación del texto''': No se puede leer documentos que tengan la información escrita de manera vertical, únicamente horizontal.  
Text Alignment
+
#'''Lenguajes''': El sistema soporta textos en Ingles, Español, Aleman, Frances, Italiano y Portugués.  
Text can be text aligned horizontally within the document. Amazon Textract does not support vertical text alignment within the document.
+
#'''Tamaño del texto a leer''': El tamaño mínimo para leer un documento serán 15 [[pixeles]], equivalente a [[tamaño de letra]] 8.
Languages
+
#'''Caracteres especiales que son detectados dentro de la herramienta''': Además de los números y los signos alfabéticos del ingles se leen los siguientes caracteres dentro del sistema: !"#$%''&()*+,-./:;=?@[\]^_`{|}~ °€£¥₹><
Amazon Textract supports English, Spanish, German, French, Italian, and Portuguese text detection. Amazon Textract will not return the language detected in its output.
 
Character Size
 
The minimum height for text to be detected is 15 pixels. At 150 DPI, this would be the same as 8 point font.
 
Character Type
 
Amazon Textract supports both handwritten and printed character recognition.
 
Characters
 
Amazon Textract supports the detection of numeric characters 0 to 9, English alphabetical characters, and the following special characters: !"#$%''&()*+,-./:;=?@[\]^_`{|}~ °€£¥₹><
 

Revision as of 22:44, 18 January 2021

Textract es el servicio mediante al cual leemos los documentos con Inteligencia Artificial en Numera. El éxito en el proceso de lectura del documento es definitivo para el proceso de registro automático del soporte contable. En esta entrada procuramos presentarle los posibles errores que generan el error de lectura y los caminos para solucionarlos.

Los errores se generan por que AWS ha determinado unos límites para el uso del sistema. A continuación se presentan.

Errores que generan problemas en la Lectura del documento

  1. Error por los formatos de los archivos: La operación recibe los siguientes formatos de imágenes JPEG y PNG. Adicionalmente documentos en PDF. No recibe archivos que lleguen en el formato JPEG 2000.
  2. Error por el tamaño de los archivos: La operación recibe archivos que pesen hasta 10 megas (MB) si son el formato JPG o PNG. Si es un PDF hasta 500 megas (MG). Si se superan estos tamaños el sistema no leerá el documento.
  3. Error por número de hojas de un documento: El sistema procesa el archivo de PDF si no supera las 3000 páginas. Un documento con más páginas no será leído.
  4. Error por el tamaño de la letra: El sistema procesa los documentos que tengan textos que tengan una altura y profundidad que no supere 40 pulgadas o 2880 puntos.
  5. Error por contraseña en un PDF: El sistema no es capaz de procesar documentos en PDF que están protegidos por contraseña.
  6. Error por inclusión de imágenes en formato JPEG 2000 en un PDF: El sistema de lectura no es capaz de leer documentos que traigan insertado una imagen en JPEG 2000

Otras características a tener en cuenta

  1. Rotación del documento: El sistema es capaz de procesar documentos que no están verticales si son homogéneos, es decir si todo el documento esta rotado, si tiene diferentes orientaciones dentro del documento no lo podrá leer.
  2. Alineación del texto: No se puede leer documentos que tengan la información escrita de manera vertical, únicamente horizontal.
  3. Lenguajes: El sistema soporta textos en Ingles, Español, Aleman, Frances, Italiano y Portugués.
  4. Tamaño del texto a leer: El tamaño mínimo para leer un documento serán 15 pixeles, equivalente a tamaño de letra 8.
  5. Caracteres especiales que son detectados dentro de la herramienta: Además de los números y los signos alfabéticos del ingles se leen los siguientes caracteres dentro del sistema: !"#$%&()*+,-./:;=?@[\]^_`{|}~ °€£¥₹><