Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) han desarrollado una técnica de inteligencia artificial (IA) que permite a las máquinas aprender conceptos compartidos entre diferentes modalidades como videos, clips de audio e imágenes. El sistema de IA puede aprender que un bebé que llora en un video está relacionado con la palabra hablada «llorar» en un clip de audio, por ejemplo, y usar ese conocimiento para identificar y etiquetar acciones en un video. La técnica funciona mejor que otros métodos de aprendizaje automático en tareas de recuperación multimodal, donde los datos en un formato (por ejemplo, video) deben coincidir con una consulta en otro formato (por ejemplo, idioma hablado). También permite a los usuarios ver el razonamiento detrás de la toma de decisiones de la máquina. En el futuro, esta técnica podría usarse potencialmente para ayudar a los robots a experimentar el mundo a través de la percepción de manera similar a los humanos.
Un modelo de aprendizaje automático puede identificar la acción en un videoclip y etiquetarla, sin la ayuda de humanos.
Los humanos observamos el mundo a través de una combinación de diferentes modalidades, como la visión, el oído y nuestra comprensión del lenguaje. Las máquinas, por otro lado, interpretan el mundo a través de datos que los algoritmos pueden procesar.
Entonces, cuando una máquina «ve» una foto, debe codificar esa foto en datos que pueda usar para realizar una tarea como la clasificación de imágenes. Este proceso se vuelve más complicado cuando las entradas vienen en múltiples formatos, como videos, clips de audio e imágenes.
“El principal desafío aquí es cómo puede una máquina alinear estas diferentes modalidades. Como humanos, es fácil para nosotros. Vemos un automóvil, luego escuchamos el sonido de un automóvil que pasa y sabemos que es lo mismo. Pero para el aprendizaje automático, no es tan simple”, dice Alexander Liu, estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y primer autor de un artículo que aborda este tema.
Los investigadores del MIT han desarrollado una técnica de aprendizaje automático que aprende a representar datos de una manera que captura conceptos compartidos entre las modalidades visuales y de audio. Su modelo puede identificar dónde tienen lugar ciertas acciones en un video y etiquetarlas. Crédito: Cortesía de los investigadores. Publicado por MIT Noticias
Liu y sus colaboradores han desarrollado una técnica de inteligencia artificial que aprende a representar datos de una manera que captura conceptos compartidos entre modalidades visuales y de audio. Por ejemplo, su método puede aprender que la acción de un bebé que llora en un video está relacionada con la palabra hablada «llorar» en un clip de audio.
Usando este conocimiento, su modelo de aprendizaje automático puede identificar dónde se lleva a cabo una determinada acción en un video y etiquetarla.
Funciona mejor que otros métodos de aprendizaje automático en tareas de recuperación multimodal, que implican encontrar un dato, como un video, que coincida con la consulta de un usuario dada en otra forma, como el lenguaje hablado. Su modelo también facilita que los usuarios vean por qué la máquina cree que el video recuperado coincide con su consulta.
Esta técnica podría usarse algún día para ayudar a los robots a aprender conceptos del mundo a través de la percepción, al igual que los humanos.
Junto a Liu en el artículo están el posdoctorado de CSAIL, SouYoung Jin; los estudiantes graduados de Cheng-I, Jeff Lai y Andrew Rouditchenko; Aude Oliva, investigadora del CSAIL y[{» attribute=»»>MIT director of the MIT-IBM Watson AI Lab; and senior author James Glass, senior research scientist and head of the Spoken Language Systems Group in CSAIL. The research will be presented at the Annual Meeting of the Association for Computational Linguistics.
Learning representations
The researchers focus their work on representation learning, which is a form of machine learning that seeks to transform input data to make it easier to perform a task like classification or prediction.
The representation learning model takes raw data, such as videos and their corresponding text captions, and encodes them by extracting features, or observations about objects and actions in the video. Then it maps those data points in a grid, known as an embedding space. The model clusters similar data together as single points in the grid. Each of these data points, or vectors, is represented by an individual word.
For instance, a video clip of a person juggling might be mapped to a vector labeled “juggling.”
The researchers constrain the model so it can only use 1,000 words to label vectors. The model can decide which actions or concepts it wants to encode into a single vector, but it can only use 1,000 vectors. The model chooses the words it thinks best represent the data.
Rather than encoding data from different modalities onto separate grids, their method employs a shared embedding space where two modalities can be encoded together. This enables the model to learn the relationship between representations from two modalities, like video that shows a person juggling and an audio recording of someone saying “juggling.”
To help the system process data from multiple modalities, they designed an algorithm that guides the machine to encode similar concepts into the same vector.
“If there is a video about pigs, the model might assign the word ‘pig’ to one of the 1,000 vectors. Then if the model hears someone saying the word ‘pig’ in an audio clip, it should still use the same vector to encode that,” Liu explains.
A better retriever
They tested the model on cross-modal retrieval tasks using three datasets: a video-text dataset with video clips and text captions, a video-audio dataset with video clips and spoken audio captions, and an image-audio dataset with images and spoken audio captions.
For example, in the video-audio dataset, the model chose 1,000 words to represent the actions in the videos. Then, when the researchers fed it audio queries, the model tried to find the clip that best matched those spoken words.
“Just like a Google search, you type in some text and the machine tries to tell you the most relevant things you are searching for. Only we do this in the vector space,” Liu says.
Not only was their technique more likely to find better matches than the models they compared it to, it is also easier to understand.
Because the model could only use 1,000 total words to label vectors, a user can more see easily which words the machine used to conclude that the video and spoken words are similar. This could make the model easier to apply in real-world situations where it is vital that users understand how it makes decisions, Liu says.
The model still has some limitations they hope to address in future work. For one, their research focused on data from two modalities at a time, but in the real world humans encounter many data modalities simultaneously, Liu says.
“And we know 1,000 words works on this kind of dataset, but we don’t know if it can be generalized to a real-world problem,” he adds.
Plus, the images and videos in their datasets contained simple objects or straightforward actions; real-world data are much messier. They also want to determine how well their method scales up when there is a wider diversity of inputs.
Reference: “Cross-Modal Discrete Representation Learning” by Alexander H. Liu, SouYoung Jin, Cheng-I Jeff Lai, Andrew Rouditchenko, Aude Oliva and James Glass, 10 June 2021, Computer Science > Computer Vision and Pattern Recognition.
arXiv:2106.05438
This research was supported, in part, by the MIT-IBM Watson AI Lab and its member companies, Nexplore and Woodside, and by the MIT Lincoln Laboratory.