La IA generativa está produciendo una notable revolución tecnológica en la era actual. Desde la presentación del innovador documento Transformer por parte de investigadores de Google en 2017, la comunidad tecnológica ha reconocido el potencial transformador de la IA. Sin embargo, no fue hasta la publicación del ahora famoso ChatGPT de OpenAI, el 30 de noviembre de 2022, cuando el mundo comenzó realmente a comprender el profundo impacto que la IA tendrá en nuestro futuro. Como resultado, el número de empresas y laboratorios tecnológicos que invierten en IA no ha dejado de aumentar año tras año.
Primero surgieron los grandes modelos lingüísticos (LLM), los cuales sentaron las bases para el desarrollo de modelos multimodales más complejos desarrollados más tarde. Un área en el que esta evolución está teniendo un impacto significativo es el área audiovisual. En los últimos años se han introducido modelos multimodales capaces de combinar texto e imágenes, conocidos como Vision-Language Models (VLM).