Una Inmersión más Profunda en el OCR de Aprendizaje Profundo

Necesitas saber todo lo que hay que saber sobre esta nueva herramienta de lectura de textos basada en IA, principalmente porque te dirá lo que necesitas saber sobre muchas cosas, como la calidad y el estado de tus productos.

Mi colega Jim Witherspoon causó un gran revuelo cuando afirmó en una reciente publicación de blog que el OCR de aprendizaje profundo era uno de los avances más significativos en la tecnología de la visión en los últimos tiempos. La mayoría de las personas no piensan en el OCR como «avanzado» de ninguna manera, forma o forma, excepto tal vez de edad avanzada. (Tiene más de 50 años). Sin embargo, el OCR de aprendizaje profundo superará las pruebas que dejarían perplejo al OCR convencional. Por lo tanto, sostengo que las herramientas de OCR de aprendizaje profundo deberían ser tan comunes en las instalaciones de fabricación, almacenamiento, envío y recepción como lo son los teléfonos inteligentes en la sociedad moderna.

En cualquier lugar donde los productos y embalajes deban ser examinados constantemente antes de ser autorizados y clasificados para su posterior movimiento podrían beneficiarse de las herramientas de OCR de aprendizaje profundo que han sido entrenadas para perfeccionar incluso las discrepancias más pequeñas en el texto grabado en los chips, píldoras y componentes más pequeños. ¿Ve inconsistencias en los datos de las etiquetas? ¿Le preocupa que se haya impreso información incorrecta en el embalaje? Las herramientas de OCR de aprendizaje profundo le dirán si su corazonada es correcta, y lo hará en una fracción de segundo.

Así es: contrariamente a la creencia popular, es posible enseñar nuevos trucos a un perro viejo y este perro viejo (OCR) puede aprender muchos trucos nuevos, y rápido, gracias a los modelos de IA de aprendizaje profundo. Estamos hablando en cuestión de minutos.

Por lo tanto, mantén la mente abierta mientras sigues leyendo porque el OCR de aprendizaje profundo NO es el OCR tradicional en el que estás pensando en este momento, y no creará los mismos problemas que le dieron al OCR tradicional una mala reputación a lo largo de los años. De hecho, resuelve muchos, si no todos, los mayores desafíos que probablemente haya experimentado con las técnicas tradicionales de OCR. Por ejemplo, el OCR de aprendizaje profundo.

No necesita mucho tiempo de entrenamiento. Ahora hay modelos preentrenados que puede tener en funcionamiento en 5-10 minutos. Simplemente «desempaque» la red neuronal, déle algunas instrucciones y se pondrá a trabajar.

Permanece estable incluso cuando cambian los ajustes ambientales, como la iluminación.

Maneja casos de uso complejos como un profesional, en parte porque la red neuronal está entrenada para escenarios industriales, de salas limpias y de cadena de suministro donde «complejo» es normal. (Hemos visto que la red neuronal OCR™ de aprendizaje profundo de Aurora alcanza una precisión de hasta el 97% desde el primer momento, incluso cuando se trata de casos muy difíciles).

Elimina la necesidad de que haya «expertos» en IA o visión inteligente en su nómina. Mostrar al algoritmo de IA preentrenado cómo funciona en su entorno es tan fácil como dibujar un cuadro alrededor de los personajes en lo que necesite inspeccionar y dejar que la herramienta haga el resto. Tu equipo solo tiene que establecer la altura del personaje, la puntuación mínima de confianza y la cadena de coincidencia para que todo esté en marcha. Si necesita realizar un cambio, las inspecciones se pueden ajustar rápidamente sobre la marcha para tener en cuenta los nuevos métodos de impresión o los cambios de fuente.

Funciona en cualquier cámara inteligente o plataforma basada en PC. Se puede implementar en muchos dispositivos diferentes que ejecutan tantos sistemas operativos diferentes: piense en escritorios integrados Windows, Linux o Linux ARM y dispositivos compactos (como Raspberry Pi o Nvidia Jetson), dispositivos portátiles Android y, por supuesto, cámaras inteligentes. Puede funcionar en una GPU o CPU. Y puede tomar «el control total sobre el desarrollo y la integración con otras aplicaciones en C++ o .NET utilizando la biblioteca Aurora Vision de Zebra», como mi amigo Donato Montanari ha recordado al mundo en muchas ocasiones.

Piénselo de esta manera, el OCR de aprendizaje profundo (al menos el modelo que ofrece Zebra) es similar al cerebro de un ingeniero que ya ha sido entrenado con cientos de miles de imágenes y ha aprendido a adaptarse a diferentes escenarios. Ese cerebro está listo para ser puesto a trabajar y tener un impacto inmediato después de un informe de 5 a 10 minutos. El OCR convencional, por otro lado, es como pedirle a un niño de cinco años que descifre lo que está frente a él y detecte «qué está mal con esta imagen / frase» a la perfección a pesar de que recién está aprendiendo a leer. El niño puede ser capaz de entender las pocas letras e identificar el tipo/color de las fuentes que ha visto, pero eso es todo.

Es por eso que es difícil encontrar fallas en las técnicas de OCR de aprendizaje profundo. Es muy bueno para encontrar fallas en el texto de los productos y etiquetas que salen de la línea, y no solo porque el método de inspección alternativo es una herramienta de OCR más rudimentaria/convencional.

Con el OCR de aprendizaje profundo, no importa si los caracteres que le pides a la IA que lea están oscurecidos, dañados, grabados, grabados, en relieve, personalizados para tu empresa, reflectantes, en una superficie curva o con un aspecto diferente al del conjunto de entrenamiento original debido a variaciones de iluminación. Le dirá si algo está presente o ausente, si está bien o mal, si está listo para ir al cliente o si necesita ser extraído del inventario. ¡Y lo hará en milisegundos!

Un socio de Zebra hizo una demostración en SPS Italia hace poco más de un año para mostrar la rapidez con la que el OCR de aprendizaje profundo podía leer diferentes tipos de marcas, y el tiempo medio de ejecución fue de 12 milisegundos. Sin embargo, honestamente, no es inusual que los tiempos de ejecución sean tan bajos como 8-10 milisegundos, incluso en lo que normalmente se consideraría un escenario «complejo» para el OCR tradicional. Mira esto:

Ahora, es posible que se pregunte cuándo y cómo debería utilizar el OCR de aprendizaje profundo cuando es el método de inspección adecuado y si debería retirar sus sistemas de OCR convencionales y reemplazarlos con el OCR de aprendizaje profundo.

Ejemplos del equipo de Zebra, aconsejan a los clientes que utilicen el aprendizaje profundo para la visión artificial. A menudo, verá que el OCR de aprendizaje profundo se utiliza en entornos operativos y flujos de trabajo similares, pero para propósitos ligeramente diferentes. Por ejemplo, el OCR de aprendizaje profundo puede manejar los siguientes «desafíos» con facilidad:

  • Lectura de identificación, cumplimiento, seguridad y otras marcas en los neumáticos de los vehículos
  • Análisis de la etiqueta y el tapón del tubo de ensayo
  • Inspección de la etiqueta del paquete de sangre
  • Revisiones de documentos de guía

Por supuesto, la inspección de final de línea, la trazabilidad de las piezas y la presencia/ausencia son flujos de trabajo principales en los que el OCR de aprendizaje profundo puede aportar valor, ya que «hacerlo bien» es importante en este caso. Sin embargo, en este reciente seminario web repasé otras posibles aplicaciones de OCR de aprendizaje profundo, de la más fácil a la más difícil, si desea tener una mejor idea de sus posibles aplicaciones.

Honestamente, esta es la mejor manera de resumir cuándo/dónde/cómo debe usar el OCR de aprendizaje profundo:

Ya sea que necesite leer las fechas de consumo preferente, los números de serie, los números de lote, los números de identificación del vehículo (VIN) o la simbiología de las etiquetas, el OCR de aprendizaje profundo le dirá lo que necesita saber, que es si los componentes y piezas correctos están en el lugar correcto en ese momento en función de los requisitos de seguridad, cumplimiento y cliente definidos.

¿Todavía estás indeciso sobre el OCR de aprendizaje profundo?

Sé que puede tener sus dudas sobre la IA y la visión artificial, ya que muchos líderes empresariales todavía están tratando de resolver las cosas. (Solo el 40% de los proveedores de automóviles de nivel 1, el 35% de los proveedores de automóviles de nivel 2 y el 49% de los fabricantes de equipos originales de automóviles en Alemania han adoptado la visión artificial de IA hasta la fecha, según este estudio publicado recientemente). Sin embargo, permíteme mencionar algunas cosas que podrían ayudarte a torcer el brazo de alguien o incluso convencerte de que el OCR de aprendizaje profundo es la inversión correcta, y un movimiento de bajo riesgo, que debes hacer ahora mismo:

  • Nadie compra sistemas de visión artificial/cámaras inteligentes porque sean geniales. Lo hacen porque son súper serviciales. Lo mismo ocurre con las herramientas de OCR de aprendizaje profundo.
  • Hablar es fácil. Es un proceso de aprendizaje natural. Sin embargo, leer es difícil para los humanos. ¡Se necesitan años y un montón de esfuerzo para aprender a leer! También es una invención cultural moderna. Por lo tanto, es posible que, de hecho, esté ofreciendo alivio a sus trabajadores al eliminar la «lectura» de sus listas de tareas pendientes, especialmente teniendo en cuenta lo tediosa que tiende a ser la lectura en el proceso de inspección de paquetes/productos/piezas. Además, ¿alguna vez has intentado descifrar la letra de otra persona? Sí, no es un refuerzo de confianza. Reserve eso para los juegos de fiesta, no para el muelle de carga o las líneas de producción / empaque.
  • La visión inteligente está tratando de imitar a los humanos, es una abstracción de los humanos. Es una cámara que intenta leer como un humano. Sabemos lo difícil que es para los humanos leer, y el OCR es esencialmente una cámara que intenta leer a partir de una imagen. Sin los algoritmos/procesos de aprendizaje profundo que ayuden, el OCR se mantendrá en ese nivel de lectura elemental para siempre. Es por eso que el OCR de aprendizaje profundo es tan diferente (y mucho más valioso) que el OCR convencional. Dicho esto…
  • El OCR tradicional y enseñable funciona bien si estás tratando de leer una imagen básica y estándar y si el texto que realmente está leyendo es lo que esperas que lea. Si todo es coherente y perfecto. ¡El problema es que no vivimos en un mundo perfecto! Por lo tanto, el OCR tradicional va a tener dificultades para ser «perfecto» cuando se le desafíe a leer algo que se vea diferente de lo que aprendió a leer. Si algo es inesperado, se va a atascar. (Bueno, no será tan dramático, pero entonces el OCR convencional probablemente causará algo de drama porque siempre te dirá: «¡Deja de introducir distorsión óptica! No cambies la iluminación, no cambies el tamaño de la fuente, no cambies el contraste. No me gusta. No puedo hacer lo que tú quieres que haga. Solo muéstrame lo que me enseñaste a buscar»).

Ahora, jugaré al abogado del diablo por un momento porque sé que es difícil aceptar que el cambio es necesario (y te costará una cierta cantidad de dinero). Si quieres que el OCR convencional funcione, puedes volver a enseñarle lo que necesita saber y crear una biblioteca súper rica de fuentes, variaciones, etc. si tienes las habilidades y el tiempo. Pero, ¿qué pasa si el siguiente elemento tiene un fondo diferente? ¿Cuántas veces vas a volver a enseñar al OCR convencional lo que el OCR de aprendizaje profundo ya ha aprendido a hacer? Es decir, el OCR de aprendizaje profundo funciona con imágenes en color, puede leer casi cualquier texto en cualquier condición (incluida la escritura a mano) y puede estar en línea en cuestión de minutos, entrenado en su propio modelo de IA de CNN si lo desea. Tampoco es necesario entrenar fuentes ni mantener bibliotecas para el OCR de aprendizaje profundo.

Por lo tanto, aunque su configuración de OCR convencional no está obsoleta, debe comprender cuándo es la opción correcta y cuándo el OCR de aprendizaje profundo es la mejor opción.

Lo que puedo decir en una frase es que «el OCR convencional debe usarse cuando se quiere que la cámara lea el ABC y se quiere asegurarse de que la cámara está leyendo el ABC cuando el texto debe ser coherente». Sin embargo, explico todos los criterios para tomar esa determinación en esta demostración en línea de 30 minutos, por lo que recomiendo encarecidamente verla cuando tenga unos minutos antes de decidir si podría funcionar para usted o si necesita una herramienta de OCR de aprendizaje profundo. (Verás que trato de pintar una imagen muy real de lo que podría suceder si intentas hacer que el OCR convencional «funcione»).

La Conclusión

Muchas herramientas de OCR requieren que inviertas mucho tiempo en algo que funcione en perfectas condiciones, pero que con demasiada frecuencia tiene dificultades para funcionar a la perfección. La excepción es el OCR de aprendizaje profundo. Ofrece una experiencia flexible para usted, sus ingenieros de imágenes industriales y, francamente, para cualquier persona que esté cansada de las lecturas erróneas, o de las lecturas perdidas y quiera arreglar las cosas.

Además, ¿no quieres que un adulto (en lugar de un niño) revise lo que estás poniendo en el mercado? ¿Y no sería mejor si ese adulto tuviera poderes sobrehumanos y pudiera trabajar a la velocidad de la luz? Eso es lo que pensé.

Por lo tanto, deje de pensar que el OCR de aprendizaje profundo no es para usted porque usted es exactamente a quien se le entrenó el OCR de aprendizaje profundo para ayudar. Aprovecha los nuevos trucos de este viejo perro porque esos trucos evitarán que el cerebro humano te juegue una mala pasada y te cueste mucho dolor de cabeza y dinero.

Este blog es contribuido por Zebra Technologies.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *