Cosas Interesantes: Convertir imagenes escaneadas a word para editarlas conSoftware OCR o reconocimiento óptico de caracteres OCR. Mejores OCR. Los mejroes softwares OCR.

El reconocimiento óptico de caracteres (ROC), generalmente conocido como reconocimiento de caracteres y expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. Así podremos interactuar con estos mediante un programa de edición de texto o similar.

En los últimos años la digitalización de la información (textos, imágenes, sonido, etcétera) ha devenido un punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introducción de caracteres evitando la entrada por teclado implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.

OCR, conocido en español como ROC (reconocimiento óptico de caracteres), es un proceso mediante el cual, a partir de un texto digitalizado, se pueden identificar las letras, símbolos y caracteres para almacenarlos en forma de texto y poder utilizarlos, por ejemplo, en un procesador de textos como Word.

Gracias a los programas OCR, en lugar de tener que transcribir un documento completo, simplemente escaneando o digitalizando las páginas vamos a poder extraer de ellas todo el texto para insertarlo, como hemos dicho, en un procesador de textos como Word o cualquier otro programa similar. Aunque el resultado no suele ser exacto al 100%, sí suele ser bastante preciso y, una vez digitalizado y extraído el texto, bastará con una sencilla revisión superficial para corregir cualquier error de reconocimiento de caracteres y poder así guardar nuestro documento en el ordenador en modo de texto.

Existen varias aplicaciones OCR para extraer texto de imágenes e importarlo en un procesador. A continuación, vamos a ver las más conocidas y utilizadas.

ABBYY FineReader, uno de los programas OCR más completos

ABBYY FineReader es una aplicación que nos permite reconocer todos los caracteres de una imagen o un documento PDF, extraerlos y permitirnos copiarlos y trabajar con ellos como si fueran texto plano. Esta es una de las herramientas más efectivas, con una tasa de acierto muy elevada, y compatible con más de 190 lenguajes diferentes. Además, se integra perfectamente con Microsoft Word de manera que, si escaneamos un documento, automáticamente podamos tenerlo en forma de texto en la herramienta de Microsoft.

Aunque este es, probablemente, el programa más eficaz en este aspecto, el principal problema es que es de pago, y no precisamente barato (200 euros la versión más limitada en funciones), por lo que si estamos buscando un programa que nos permite convertir nuestros escaneos a texto, podemos probar cualquiera de las siguientes alternativas gratuitas.

Tesseract, una librería OCR 100% JavaScript

Esta librería OCR empezó sus andadas en 1995 y, desde entonces, ha seguido creciendo y actualizándose hasta ser una de las mejores herramientas de reconocimiento digital de caracteres dentro del ámbito gratuito y OpenSource. Esta aplicación puede resultar un poco complicada de utilizar ya que su uso debe hacerse desde terminal o desde una ventana de CMD, sin embargo, los comandos son muy sencillos y el resultado que nos ofrece es excelente a nivel de precisión.

Podemos encontrar más información sobre él, una guía de instalación y uso y su descarga desde su página principal de GitHub. Esta aplicación está disponible para Windows, Linux y macOS.

GImageReader, un frontend para Tesseract

En el punto anterior hemos hablado de la librería Tesseract escrita en JavaScripy y dijimos que su principal inconveniente es que debe utilizarse desde un terminal.

GImageReader es un frontend, o una interfaz, que utiliza esta librería y que nos permite hacer uso de las funciones de reconocimiento de una forma muy sencilla e intuitiva. Gracias a esta herramienta, los usuarios que no se atrevan a usar Tesseract con comandos podrán utilizar cómodamente la librería desde una ventana con teclado y ratón.

Esta herramienta está disponible para Windows y Linux, y podemos descargarla desde el siguiente enlace.

(a9t9) Free OCR Software

(a9t9) Free OCR Software es una alternativa más, también de código abierto, a las aplicaciones de reconocimiento de caracteres anteriores. Esta opción cuenta también con un alto porcentaje de éxito y, además, puede ejecutarse directamente desde el navegador sin necesidad de instalar ningún software adicional.

Podemos utilizar esta herramienta directamente desde nuestro navegador desde su página web principal. Si queremos, también podemos descargar un cliente gratuito desde la Windows Store (para Windows 8 y Windows 10) y una extensión para Google Chrome.

Free OCR to Word, una alternativa más gratuita

Aunque nos salimos del ámbito OpenSource, no queríamos terminar sin hablar de Free OCR to Word. Esta aplicación nos permite reconocer los caracteres de distintos formatos de archivos, como JPG, JPEG, PSD, PNG, GIF, TIFF y BMP, entre otros, e importarlos directamente a un documento de Word totalmente editable de manera que evitemos la tediosa tarea de reescribir estos documentos.

Podemos descargar esa aplicación de forma gratuita desde su página web principal.

¿Conoces o utilizas otras aplicaciones de reconocimiento óptico de caracteres?

Extrae el texto de una imagen o documento escaneado con Photo Scan

Seguro que en muchas ocasiones hemos recibido algún documento en formato PDF protegido para su edición, que ha sido escaneado o simplemente una imagen de un texto fotografiado y no hemos podido extraer el texto de ninguna manera fácilmente, teniendo que armarnos de valor y sentarnos delante del ordenador para escribir y replicar todo el texto en un documento Word.
Lo cierto es que hay alguna forma de extraer el texto de este tipo de archivos de imagen, pero sin duda una de las mejores es echando mano de la aplicación Photo Scan, disponible de forma gratuita en la tienda de aplicaciones de Windows 10. Se trata de un software que hace uso de la tecnología OCR (Optical Character Recognition) y que es la encargada de permitirnos extraer cualquier texto de imágenes, fotos, documentos escaneados o fotografiados en tan sólo un clic.
extraer el texto de una imagen

Nada más instalar Photo Scan, veremos que al lanzar la aplicación cuenta con una interfaz muy sencilla de utilizar. En el centro de la ventana, se muestran tres opciones que permiten seleccionar la imagen de nuestro PC, usar la cámara para capturar un texto o pegar directamente la imagen. Una vez elegida la imagen, veremos como de manera automática en la parte de la derecha se muestra el texto contenido en la imagen.
Justo encima del panel donde la aplicación extrae el texto, podemos encontrar una serie de iconos desde los que podemos compartirlo, guardarlo o copiarlo. Además, ofrece otra opción bastante curiosa que es la de que la propia aplicación Photo Scan, nos lea el texto extraido de la imagen en voz alta.

Resulta curioso ver cómo nada más seleccionar el archivo de la imagen que contiene el texto, la aplicación casi al instante es capaz de reconocerlo por completo y mostrárnoslo en el panel de la derecha. Desde los ajustes de Photo Scan, es posible cambiar de tema, viene establecido por defecto Dark Theme, establecer o no una línea de ruptura o enviar nuestro feedback.
Si quieres comenzar a probar Phot Scan, sólo tienes que seguir este mismo enlace que lleva a la tienda de aplicaciones de Windows 10, donde puedes hacerte con ella de forma totalmente gratuita. Hay que decir que hemos probado a realizar una imagen de un trozo de texto y Photo Scan ha sido capaz de extraerlo en décimas de segunda sin un solo error.

Problemas con el ROC

El proceso básico que se lleva a cabo en el ROC es convertir el texto que aparece en una imagen en un archivo de texto que podrá ser editado y utilizado como tal por cualquier otro programa o aplicación que lo necesite.

Partiendo de una imagen perfecta, es decir, una imagen con sólo dos niveles de gris, el reconocimiento de estos caracteres se realizará básicamente comparándolos con unos patrones o plantillas que contienen todos los posibles caracteres. Ahora bien, las imágenes reales no son perfectas, por lo tanto el ROC se encuentra con varios problemas:

El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original.
La resolución de estos dispositivos puede introducir ruido en la imagen, afectando los píxeles que han de ser procesados.
La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento.
La conexión de dos o más caracteres por píxeles comunes también puede producir errores.

Esquema básico de un algoritmo de ROC

Todos los algoritmos de ROC tienen la finalidad de poder diferenciar un texto de una imagen cualquiera. Para hacerlo se basan en cuatro etapas:

Binarización.
Fragmentación o segmentación de la imagen.
Adelgazamiento de los componentes.
Comparación con patrones.

Binarización

La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores). Por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen, donde se muestra el número de píxeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los píxeles que no lo superen se convertirán en negro y el resto en blanco.

Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y símbolos que contiene la imagen. A partir de aquí podemos aislar las partes de la imagen que contienen texto (más transiciones entre blanco y negro).

Fragmentación o segmentación de la imagen

Este es el proceso más costoso y necesario para el posterior reconocimiento de caracteres. La segmentación de una imagen implica la detección mediante procedimientos de “etiquetado determinista” o estocástico de los contornos o regiones de la imagen, basándose en la información de intensidad o información espacial.

Permite la descomposición de un texto en diferentes entidades lógicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento.

No existe un método genérico para llevar a cabo esta segmentación de la imagen que sea lo suficientemente eficaz para el análisis de un texto. Aunque las técnicas más utilizadas son variaciones de los métodos basados en proyecciones lineales.

Una de las técnicas más clásicas y simples para imágenes de niveles de grises consiste en la determinación de los modos o agrupamientos (clústeres) a partir del histograma, de tal forma que permitan una clasificación o umbralización de los píxeles en regiones homogéneas.

Adelgazamiento de los componentes

Una vez aislados los componentes conexos de la imagen, se les tendrá que aplicar un proceso de adelgazamiento para cada uno de ellos. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipología.

La eliminación de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen continúe teniendo las mismas proporciones que la original y así conseguir que no quede deforme.

Se tiene que hacer un barrido en paralelo, es decir, señalar los píxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificación y reconocimiento, simplificando la forma de los componentes.

Comparación con patrones

En esta etapa se comparan los caracteres obtenidos anteriormente con unos teóricos (patrones) almacenados en una base de datos. El buen funcionamiento del ROC se basa en gran medida en una buena definición de esta etapa.

Existen diferentes métodos para llevar a cabo la comparación. Uno de ellos es el método de proyección, en el cual se obtienen proyecciones verticales y horizontales del carácter por reconocer, y se comparan con el alfabeto de caracteres posibles hasta encontrar la máxima coincidencia.

Existen otros métodos, como por ejemplo:

Métodos geométricos o estadísticos.
Métodos estructurales.
Métodos neuromiméticos.
Métodos markovianos (modelo oculto de Márkov).
Métodos de Zadeh.

Aplicaciones

Desde la aparición de los algoritmos de ROC, han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologías. A continuación se muestran algunas de las más destacables aplicaciones que utilizan el ROC.

Reconocimiento de texto manuscrito

Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. No todos escribimos de manera uniforme, y no todos escribimos de la misma forma. El reconocimiento de este tipos de textos continúa siendo un desafío. Para abordar este tipo de problemas se han desarrollado técnicas y aplicaciones específicas a las que se les llama Reconocimiento inteligente de caracteres o ICR (del inglés Intelligent Character Recognition).

Aunque el texto se compone básicamente de caracteres individuales, la mayoría de algoritmos ROC no consiguen buenos resultados, ya que la segmentación de texto continuo es un procedimiento complejo.

En el caso de reconocimiento de escritura manuscrita a la hora de corrección de exámenes, existe la posibilidad, añadiendo un listado de léxico (nombres y apellidos) de acercarse al 100% de acierto. A través de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de países, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras (léxico), el cual puede ir aumentándose según las necesidades.

En el mundo real, a veces se puede llegar a comprender una frase cuando la hemos terminado de leer. Automatizar este proceso implica una operación de niveles morfológico, léxico y sintáctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodología, se utilizan algoritmos robustos que usan una segmentación previa, debido a que se obtiene automáticamente con la descodificación.

Para facilitar el reconocimiento a veces la tecnología ICR requiere que en el documento se tengan recuadros dentro de los cuales se introducen los caracteres manuscritos, siendo obligatorio un carácter por recuadro. Habitualmente se utiliza para formularios que debemos rellenar a mano y tenemos que poner en letras mayúsculas.

Reconocimiento de matrículas

Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrícula de un vehículo con condiciones de iluminación, perspectiva y entorno variables.

En la etapa de segmentación, se buscan texturas similares a la de una matrícula y se aísla el área rectangular que forma la matrícula.

Finalmente, se aplica un proceso de clasificación múltiple sobre el conjunto de píxeles pertenecientes a la matrícula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrícula. Si aparece algún error, es corregido.

Indexación con bases de datos

Con el gran aumento de información publicada que ha tenido lugar en los últimos años, cada vez son más los métodos que se emplean para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imágenes. Una de las formas más corrientes de buscar imágenes es a partir de metadatos introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imágenes mediante el texto que aparecen en ellas, como el buscador DIRS (Document Image Retrieval System) que, mediante un algoritmo de ROC, extrae el texto que aparece en la imagen y lo utiliza como metadato que podrá servir para las búsquedas. Esta tecnología proporciona una posibilidad en la búsqueda de imágenes y demuestra que el ROC aún puede dar mucho de sí.

Reconocimiento de datos estructurados con ROC Zonal

Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nóminas, albaranes, pólizas, justificantes bancarios, etcétera), catalogando automáticamente los documentos con los metadatos obtenidos y archivándolos en formato digital de forma indexada para facilitar su posterior búsqueda. Tiene el inconveniente de que es necesario diseñar previamente las plantillas, pero con una buena configuración se ahorra mucho tiempo en el proceso de digitalización.

Cosas Interesantes

viernes, 12 de enero de 2018

Convertir imagenes escaneadas a word para editarlas conSoftware OCR o reconocimiento óptico de caracteres OCR. Mejores OCR. Los mejroes softwares OCR.

ABBYY FineReader, uno de los programas OCR más completos

Tesseract, una librería OCR 100% JavaScript

GImageReader, un frontend para Tesseract

(a9t9) Free OCR Software

Free OCR to Word, una alternativa más gratuita

No hay comentarios:

Publicar un comentario

adnow