DALL·E 2: La Inteligencia Artificial capaz de convertir texto en imágenes
Por Emmanuel Iarussi*
La acción creadora mediada por la palabra parecía ser exclusividad de los dioses, pero ya no. La invención de una disruptiva tecnología fue anunciada el pasado abril por el laboratorio de investigación en Inteligencia Artificial OpenAI, con sede en San Francisco, California. Se trata de un algoritmo capaz de generar todo tipo de imágenes: basta con ingresar una breve descripción (por ahora sólo se admite el idioma inglés) y, tras un intervalo de tiempo que puede ir entre las decenas de segundos hasta los pocos minutos, el sistema ofrece una serie de resultados que se corresponden con el contenido del texto ingresado. Sus creadores lo bautizaron DALL·E 2 en alusión a WALL·E, el r–obot compactador de basura de la película animada de Pixar, y el artista español Salvador Dalí.
Si bien la interfaz basada en texto se parece mucho a la de un buscador, este método está lejos de ser solamente el índice de una base de datos. Al igual que otros algoritmos basados en aprendizaje automático, DALL·E 2 obtiene sus habilidades gracias a un entrenamiento especial que consiste en la observación repetida de una vasta colección de imágenes. En este caso, el equipo de investigación empleó decenas de millones de fotografías provenientes de Internet con subtítulos que describen su contenido. Mediante el entrenamiento, el algoritmo pudo extraer los patrones y relaciones subyacentes entre estas dos modalidades de datos.
DALL·E 2 no es el primero en su tipo, pero a diferencia de sus predecesores eleva significativamente la vara de realismo y calidad en las imágenes que produce. Además, tiene la capacidad de imitar a demanda estilos muy particulares con una increíble habilidad. Por ejemplo, puede recrear un fotograma de la película El Padrino de 1972 pero protagonizada por Homero Simpson, o revelar los primeros bocetos del iPhone como si hubieran sido ingeniados por el mismísimo Leonardo da Vinci.
Es extraordinario, en el estricto sentido de la palabra, que un algoritmo sea capaz de hacer algo así. Hasta el momento, las herramientas digitales que asisten a diseñadores y artistas requieren, en parte, de habilidades similares a las que se usan para manipular las herramientas del mundo analógico. Por ejemplo, es esperable que las personas con buenas aptitudes para dibujar en Photoshop, sean también capaces de utilizar lápiz y papel. Pero es fácil entusiasmarse e imaginar que DALL·E 2 llegó para cambiarlo todo. Así como la invención de la fotografía permitió capturar momentos a quienes no contaban con habilidades para la pintura, DALL·E 2 promete abrir las puertas del arte para todas las personas, o al menos, para aquellas que sepan cómo describir lo que desean.
No toda revolución es perfecta
Por ahora, el uso de la aplicación está limitado y existe una larga lista de espera. Quienes han logrado acceder no tienen permitido compartir el contenido generado públicamente si exhibe rostros humanos reconocibles o pornografía. Quienes llevan adelante el proyecto han optado por este acceso a cuentagotas para poder evaluar paulatinamente el impacto y la forma en que se utiliza esta tecnología. Sin las medidas de seguridad suficientes, los algoritmos como DALL·E 2 pueden usarse masivamente para generar contenido engañoso o dañino, e incluso afectar la forma en que se percibe la autenticidad de todo el contenido existente.
Además, DALL·E 2 hereda varios sesgos en sus datos de entrenamiento y esto se refleja en las imágenes que produce. Por ejemplo, se han reportado estereotipos en los roles de género al utilizar palabras como “enfermero” o “abogada”. Asimismo, palabras como “boda” disparan resultados que retratan mayormente casamientos heterosexuales.
A pesar del acceso limitado al algoritmo ya entrenado, el preprint con la descripción para reproducir a DALL·E 2 fue publicado el pasado abril en el repositorio arXiv. En principio, cualquier persona con la suficiente cantidad de recursos computacionales y la experiencia adecuada puede recrear el sistema. Es el caso de Boris Dayma, un ingeniero especializado en inteligencia artificial que se encuentra desarrollando públicamente su propia copia. Aunque todavía no funciona tan bien como la versión de OpenAI, el clon ya comenzó a ser utilizado masivamente por usuarios de redes sociales (principalmente en Twitter), quienes compartieron sus producciones sin restricciones de contenido.
Si bien algunas de las imágenes que produce DALL·E 2 no son exactamente las buscadas, está claro que tampoco existe una mejor forma de obtener tanta variedad de buenos resultados a esa velocidad, ni siquiera contratando a un artista experimentado. Por este motivo, algunos profesionales del área han expresado su malestar y miran con desconfianza esta nueva tecnología. Sin embargo, los investigadores han expresado su voluntad de que DALL·E 2 funcione como una herramienta de soporte al trabajo que realizan los diseñadores, y no que se transforme en su sentencia de muerte. A modo de incentivo, OpenAI otorgó acceso especial a algunas personalidades del mundo del arte digital como Mario Klingeman, quien hace algunas semanas utiliza este sistema para sus propias exploraciones artísticas. Hace algunos años, cuando DALL·E 2 aún no había visto la luz, Klingemann ya advertía en una nota del diario El País que “las máquinas no podrán crear arte hasta que no tengan una motivación. Ellas no se mueren”. En el mismo sentido, Aaron Hertzmann, reconocido investigador del área afirmó en un artículo reciente que “si alguien te dijera que una persona hizo todas estas imágenes, por supuesto que pensarías que son creativas, pero eso no convierte a DALL·E 2 en un artista”.
Es entendible que esta nueva herramienta resucite antiguos cuestionamientos acerca de si es posible crear arte sin la intervención humana. El escritor de ciencia ficción británico Arthur C. Clarke, afirmaba que cualquier tecnología lo suficientemente avanzada es indistinguible de la magia. Es importante recordar que, por más maravilloso que parezca, DALL·E 2 es un algoritmo que sigue las instrucciones de sus autores de OpenAI. Los algoritmos de Inteligencia Artificial, incluso los que ofrecen resultados más impresionantes, son procedimientos que aproximan o recombinan datos. Algo similar a lo que hacemos cuando unimos puntos con una curva, pero en una forma mucho más sofisticada y en espacios multidimensionales. Las herramientas no son el artista. En todo caso, el arte surgirá del proceso creativo que conduzca a las personas a seleccionar aquellas imágenes que mejor reflejen sus intereses, gustos y emociones más profundas.
Investigador del Conicet en el Laboratorio de Inteligencia Artificial-UTDT*.