Generación de assets 3D usando IA

Repasamos los primeros modelos de IA que lo hacen posible.

3D inteligente

Modelos para assets

IA Models

Low Poly Creative

La IA generativa está produciendo una notable revolución tecnológica en la era actual. Desde la presentación del innovador documento Transformer por parte de investigadores de Google en 2017, la comunidad tecnológica ha reconocido el potencial transformador de la IA. Sin embargo, no fue hasta la publicación del ahora famoso ChatGPT de OpenAI, el 30 de noviembre de 2022, cuando el mundo comenzó realmente a comprender el profundo impacto que la IA tendrá en nuestro futuro. Como resultado, el número de empresas y laboratorios tecnológicos que invierten en IA no ha dejado de aumentar año tras año.

Primero surgieron los grandes modelos lingüísticos (LLM), los cuales sentaron las bases para el desarrollo de modelos multimodales más complejos desarrollados más tarde. Un área en el que esta evolución está teniendo un impacto significativo es el área audiovisual. En los últimos años se han introducido modelos multimodales capaces de combinar texto e imágenes, conocidos como Vision-Language Models (VLM).

Surgieron los primeros modelos de IA

La revolución audiovisual cobró impulso con el anuncio de CLIP y DALL-E por OpenAI en 2021. DALL-E, que utilizaba una variante de la arquitectura GPT-3 para generar imágenes, marcó un momento crucial. El año 2022 fue testigo de una oleada de avances en IA, con empresas como MidJourney y Stability AI, que lanzaron sus propios modelos de IA para la generación de imágenes.

Tras el éxito de los modelos de generación de imágenes, surgieron los primeros modelos de IA para la creación de audio y música, como AudioML y MusicML de Google Research. En 2023, herramientas como Suno y Udio dieron un paso más allá, convirtiéndose en la vanguardia de la creación de audio basada en IA, capaz de generar bandas sonoras complejas y música de diversos géneros.

En febrero de 2024, OpenAI anunció SORA, un nuevo modelo de generación de vídeo que, si bien no era el primero de su clase, representaba un importante salto hacia adelante en este campo. El año 2024 ha sido especialmente fructífero para la IA, con el lanzamiento de diversas herramientas de generación de vídeo como Runway, Dream Machine y Kling, entre otras.

A medida que la generación de vídeo se hace cada vez más viable, la próxima frontera parece ser la generación de assets 3D mediante IA. Este año se han presentado los primeros modelos de IA para la creación de activos 3D: TripoAI, Meshy, Genie y CSM.

TripoAI, Meshy y CSM ofrecen servicios web para usuarios, así como una API REST para que los desarrolladores integren estos servicios en herramientas de terceros. Estas plataformas suelen funcionar con un sistema basado en créditos, en el que los usuarios compran créditos que se consumen con cada generación. En cambio, Genie, desarrollada por Luma Labs, se lanzó en versión alfa y actualmente es de uso gratuito.

Estos modelos de IA permiten generar assets 3D a partir de texto o imágenes, produciendo tanto piezas geométricas como texturas. Sin embargo, la calidad y la fidelidad de los resultados varían de un modelo a otro. Además, algunos de estos modelos ofrecen funciones adicionales, como la generación de texturas PBR o rigging automático y animación de los modelos 3D generados.

Para evaluar las capacidades de estos modelos de IA, desde el equipo de Plain Concepts Research se ha creado una batería de pruebas para compararlos, que se describe a continuación.

Fuente Plains Concepts
Ver nota completa