La máquina inteligente que aprende lo que ve sin ayuda humana
Científicos de Google desarrollan un sistema que puede predecir el aspecto de un espacio desde una perspectiva diferente
La capacidad de comprender lo que el ojo ve es una función clave en el sistema cognitivo de muchos animales, incluidos nosotros mismos. Uno de los objetivos de la inteligencia artificial es conseguir una capacidad similar, lo que podría aumentar de forma extraordinaria la autonomía de las máquinas. Sin son capaces de entender el mundo por sí solas, quizás ni siquiera necesiten del ser humano para existir. Los científicos de DeepMind , la innovadora compañía de Google, han dado un paso más en este sentido.
Los investigadores han desarrollado un sistema de aprendizaje automático que puede «observar» una escena desde múltiples ángulos y predecir qué aspecto tendría el mismo espacio desde una perspectiva completamente diferente , una que no ha visto durante el entrenamiento. El sistema, describen sus «padres» en la revista «Science» , lo logra a partir de un pequeño número de imágenes de muestra bidimensional y, lo que es más importante, sin supervisión humana . Llamada «Red Generativa de Búsqueda» (GQN, por las siglas de Generative Query Network), esta maravilla no necesita entrenar con conjuntos de datos etiquetados por humanos, un requisito de los sistemas actuales de visión por computadora.
Construido por el equipo de Seyed Mohammadali Eslami, el GQN consta de dos partes: una red de representación, que desarrolla una representación codificada de la escena a partir de las imágenes de muestra, y una red de generación, que genera imágenes probables de la escena desde nuevos puntos de vista y completa las partes de la misma que puedan estar ocultas.
Eslami y sus colegas «entrenaron» la máquina utilizando entornos simples generados por computadora que contienen varias configuraciones de objetos y luces. Cuando se le proporcionaron varias imágenes de una nueva escena, la red fue capaz de generar otras imágenes de la misma de forma predictiva desde cualquier punto de vista de su interior, incluso después de que los investigadores cambiaran alguna característica de la escena, como el color de los objetos.
De esta forma, los científicos pudieron construir nuevas escenas sumando o restando las representaciones de GQN entre sí. Por ejemplo, restar una escena que contiene una esfera roja de una escena con una esfera azul y agregar una con un cilindro rojo da como resultado una escena con un cilindro azul, todo ello sin que un ser humano explícitamente le enseñe a la máquina las nociones de color o forma.
Brazo robótico
Según sus autores, el ingenio también podría servir para controlar dispositivos robóticos. Después de ser entrenado, sus capacidades predictivas le permiten «observar» brazos robóticos, por ejemplo, desde diferentes ángulos usando solo una cámara estacionaria, lo que significa que se necesitan menos datos no procesados para un posicionamiento y control precisos.
Aunque, con imaginación, estas capacidades de reconocimiento podrían recordar a una especie de «Terminator» apuntando sus sensores para reconocer a sus víctimas, Matthias Zwicker, del departamento de Ciencias de la Computación de la Universidad de Maryland (EE.UU.), señala en un comentario publicado en «Science» junto a la investigación que el trabajo de Eslami tiene sus limitaciones. Los experimentos están restringidos a escenas 3D simples que consisten en algunos objetos geométricos básicos. Por lo tanto, no está claro si la máquina sería capaz de comprender entornos complejos y reales. Al menos, es un prometedor comienzo.
Noticias relacionadas