La realidad de crear videos con Inteligencia Artificial

¿Quieres leer una edición en específico?

La realidad de crear videos con Inteligencia Artificial

Con el auge de ChatGPT y otros asistentes se demostró que la Inteligencia Artificial (IA) puede generar texto, imágenes, presentaciones e incluso música. Pero: ¿Qué ocurre cuando ponemos la creatividad audiovisual a prueba? Crear video con IA es todavía uno de los mayores desafíos técnicos de la industria.

¿Por qué es tan difícil generar video?

Un video no es más que una secuencia de decenas de imágenes por segundo. La IA debe mantener una consistencia visual de un cuadro a otro y, al mismo tiempo, simular movimientos coherentes con la acción de acuerdo a las reglas de la física. Este doble requisito ha resultado ser de gran dificultad para la mayoría de los modelos.

Uno de los benchmarks informales más populares en torno a la IA es el “test de Will Smith comiendo spaghetti”: se le pide al modelo recrear al famoso actor haciendo esto. Para lograrlo, la IA debe conservar rasgos faciales reconocibles, morder la comida y reflejar expresiones lógicas. Durante 2023 y 2024 los modelos rara vez podían hacerlo consistentemente.

El generar videos de manera computarizada tiene muchísimas dificultades. Un video es una colección de muchas imágenes reproducidas en un muy corto intervalo de tiempo, y por ello trae muchas complicaciones adicionales al sólo hecho de crear una imagen.

En 2024, el propio Will Smith se sumó a la tendencia y, hoy en 2025, este y otros test muestran avances sorprendentes. La gran pregunta es: ¿Ya podemos confiarle nuestros comerciales a la IA?

Cómo lo están usando hoy en día las marcas

Varias marcas han estado incorporando IA en comerciales, piezas de redes sociales y otros creativos. En 2023, Coca-Cola lanzó el comercial “Masterpiece” el cual mostraba como distintas obras de arte en un museo interactuaban con el producto y la IA permitió animar algunas partes del comercial.

En 2024, la tienda de juguetes Toys “R” Us lanzó un anuncio creado casi en su totalidad con el modelo Sora de OpenAI, lo cual le permitió contar una historia en relación a la inspiración del fundador de la empresa para crear la tienda, algo que hubiese sido mucho más costoso y difícil de recrear con actores.

Aunque técnicamente impactantes, muchos de estos comerciales no superan el “uncanny valley”: esa incomodidad que sentimos al ver cuando algo luce casi humano, pero se percibe extraño. El resultado suele ser un mensaje emocionalmente plano.

Lo obstáculos de la generación de video

Las herramientas de IA crean clips muy cortos de 4 a 6 segundos, lo que obligan al armado de video con muchas partes y con tomas que no duran mucho tiempo en pantalla. Además, cada una de estas generaciones son lentas y costosas. Toman entre 2 y 5 minutos crear algo de mediana calidad y se requieren costosas licencias.

Finalmente, también es común ver que incluso con la misma instrucción (prompt) las generaciones son diferentes e inconsistentes, lo que dificulta crear un hilo conductor claro y coherente.

Cómo se está utilizando en Chile

En nuestro podcast “Inteligencia Artificial para los Negocios” conversamos con Franco Benavente, productor audiovisual especializado en IA y que ha creado distintos videos que se han utilizado en el programa Primer Plano de CHV, en el Festival de Viña del Mar y en distintos noticieros. En el episodio, Franco nos cuenta cómo enfrenta las dificultades de crear con video. Por ejemplo, en un video reciente tuvo que hacer más de 400 tomas para finalmente elegir 11 que fueron utilizadas, además usa técnicas y softwares tradicionales de edición para compensar las debilidades de las herramientas basadas en IA, entre las que están ajustar el plano de las imagenes, la corrección de color, la edición de detalles visuales con Adobe Photoshop y añadir textos y otros elementos con Adobe Premiere.

Veo 3 y Gen-4, los modelos que comienzan a romper los límites

En las últimas semanas, se han publicado nuevos modelos que están empujando las algunas de barreras actuales de la generación de videos.

Uno de ellos es Veo 3, un modelo de Google que es el primero capaz de generar imagen y audio en un mismo proceso. Además su calidad visual ha sido destacada por los usuarios y también ha logrado engañar a más de alguna persona.

Hace unas semanas se hizo viral la supuesta noticia de que un canguro de soporte emocional habría sido dejado fuera de un vuelo. Esta noticia se basaba en un clip donde una asistente discutía con una presunta pasajera, mientras que su canguro sostenía su ticket de avión. Esta historia fue creada con este modelo de IA.

Por su parte, Runway lanzó Gen-4 el cual promete ser mejor que otros modelos en mantener la identidad visual del protagonista (o de un producto) a lo largo de varios planos, sin cambiarle sus rasgos, vestuario o iluminación.

Videos generados por Runway Gen-4 donde el personaje se mantiene consistente en distintos planos y generaciones

Cómo usar la IA de manera realista en 2025

La IA de video todavía se enfrenta a importantes dificultades y eso no cambiará de la noche a la mañana. ¿Significa que es inutilizable? No, para nada. Cuando se emplea como copiloto creativo, aporta velocidad, volumen de ideas y referencias visuales que mejora el proceso publicitario.

Por ejemplo, en marzo Nike lanzó un spot donde un fan visita una fábrica de zapatillas surrealista. Toda la producción se realizó con efectos visuales tradicionales, pero en toda la pre-producción se utilizaron más de 5.000 imágenes generadas en Midjourney (una popular herramienta de creación de imágenes que se caracteriza por dar mayor control y personalización). Esas imágenes permitieron poder construir un storyboard con mayor detalle y en menor tiempo, y así, alinear rápidamente a los distintos involucrados.

La moraleja es clara: no hace falta que la IA haga el 100 % del trabajo para entregar mucho valor. Quien la incorpore hoy en día en su flujo híbrido de trabajo estará preparado para cuando, más temprano que tarde, los modelos superen los límites actuales.