Entre algoritmos, lentes y sensores, la Visión Artificial: ¿Qué ves cuando me ves?
Este subcampo de la Inteligencia Artificial tiene por objetivo replicar las capacidades de la visión humana. Puede ayudar a desarrollar proyectos que aporten soluciones a la vida cotidiana.
La vertiginosa transformación digital trae avances hasta hace poco impensables en las Tecnologías de la Información y la Comunicación (TIC), un concepto amplio que engloba, también, a las herramientas y soluciones sustentadas en la Inteligencia Artificial (IA). A partir de sus bondades, la Visión Artificial o Visión por Computador, engloba todos los procesos y elementos que proporcionan ojos a una máquina. Esta tecnología se centra en el desarrollo y perfeccionamiento de técnicas que permiten a las máquinas ver, identificar y procesar imágenes, de la misma manera que lo hace la visión del ser humano, pero con la capacidad de evaluar detalles de objetos demasiado pequeños para el ojo humano e inspeccionarlos con mayor confiabilidad y menos errores. Y lo hace a una velocidad de cientos o miles de piezas por minuto.
¿Cómo funciona?
Tanto para el ser humano como para una máquina, la visión consta, principalmente, de dos fases: captar una imagen e interpretarla. El ojo de la computadora es la cámara de video, y su retina un sensor que es sensible a la intensidad luminosa. Lo que resta es interpretar las imágenes, distinguir los objetos de la escena, extraer información de ellos y resolver aspectos más particulares, según las necesidades que se desean satisfacer. Técnicamente, las máquinas intentan recuperar la información visual, manejarla e interpretar los resultados a través de algoritmos de software especiales.
Los algoritmos que se usan se basan en el reconocimiento de patrones: se entrena a las computadoras en una gran cantidad de datos visuales, estas procesan imágenes, etiquetan los objetos en ellos y encuentran referencias en esos objetos. Por ejemplo, si se envían un millón de imágenes de árboles, la computadora las analizará, identificará patrones que son similares y, al final de este proceso, creará un modelo “árbol”. Como resultado, la computadora será capaz de detectar con precisión si una imagen en particular es un árbol cada vez que se le envíe imágenes.
La Visión Artificial se basa en un conjunto de tareas diversas, combinadas para lograr aplicaciones altamente sofisticadas. Las más frecuentes son el reconocimiento de imágenes y video, que básicamente consisten en determinar los diferentes objetos que contiene una imagen.
¿Para qué se usa?
Los usos de la Visión Artificial son numerosos y abarcan desde el campo industrial, médico, automovilístico, agropecuario hasta el de seguridad y de defensa, entre otros. Existen casos populares de uso comercial. Por ejemplo, Apple Photos y Google Photos tienen acceso a colecciones de fotos y agregan automáticamente etiquetas a las fotos y permiten navegar por una colección de fotografías más estructurada. Estas aplicaciones crean una vista curada de “los mejores momentos”.
Los motores de búsqueda visual también usan esta tecnología, que se puso a disposición del público con la aparición de Google Images en 2001. Es capaz de recuperar imágenes que cumplen con ciertos criterios de contenido. La búsqueda de palabras clave es un caso de uso común, pero a veces se puede presentar una imagen de origen y solicitar que se encuentren imágenes similares.
Otro uso diario de esta tecnología es el reconocimiento facial: se utiliza para hacer coincidir las fotos de los rostros de las personas con sus identidades. Muchos dispositivos móviles disponibles en el mercado permiten a los usuarios desbloquear los dispositivos mostrando sus caras. Para el reconocimiento facial se utiliza una cámara frontal, los dispositivos móviles procesan esta imagen y, basándose en el análisis, pueden decir si la persona que tiene el dispositivo está autorizada en él.
Otro ejemplo es el caso de la Realidad Aumentada: la Visión Artificial ayuda a estas aplicaciones a detectar objetos físicos, tanto superficies como objetos individuales dentro de un espacio físico determinado, en tiempo real y a utilizar esta información para colocar objetos virtuales dentro del entorno físico.
Por el lado del automovilismo, permite a los coches dar sentido a su entorno. Un vehículo inteligente tiene unas cuántas cámaras que capturan videos desde diferentes ángulos y los envían como señal de entrada al software de Visión Artificial. El sistema procesa el video en tiempo real y detecta marcas en la carretera, o bien, objetos cercanos al auto, como peatones, otros autos y semáforos. Uno de los ejemplos más notables de las aplicaciones de esta tecnología es el piloto automático en los automóviles.
En el caso de la salud, muchos diagnósticos médicos se basan en el procesamiento de imágenes, rayos X, resonancia magnética y mamografía. Y la segmentación de las imágenes demostró su eficacia durante el análisis de las exploraciones médicas. Por ejemplo, los algoritmos de Visión Artificial pueden detectar la retinopatía diabética, la causa de ceguera de más rápido crecimiento, al procesar imágenes de la parte posterior del ojo y clasificarlas según la presencia y la gravedad de la enfermedad.