La nueva aplicación permite crear secuencias visuales de alta calidad y realismo. ¿Es un game changer de las herramientas text-to-video?
OpenAI presentó su más reciente creación: Sora. Este nuevo modelo de IA generativa se introduce como una herramienta revolucionaria que permite convertir descripciones de texto en videos de hasta un minuto de duración con una calidad excepcional.
Sora opera siguiendo los pasos de DALL-E, la herramienta de generación de imágenes de OpenAI, al permitir que los usuarios ingresen una escena deseada y obtengan como resultado un clip de video de alta definición. Además, Sora tiene la capacidad de crear clips inspirados en imágenes estáticas, así como de prolongar videos existentes o rellenar fotogramas faltantes.
Video generado con el prompt: "A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about".
La incursión de OpenAI en el campo del video marca un hito importante en el desarrollo de la inteligencia artificial, abriendo nuevas posibilidades en cuanto a la creación de contenido visual. Sin embargo, este avance no está exento de desafíos, ya que el aumento de deepfakes generados por IA plantea preocupaciones sobre la desinformación, especialmente en el contexto de eventos políticos cruciales a nivel mundial.
Video generado con el prompt: "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors".
Con Sora, OpenAI busca competir con otras herramientas de generación de video impulsadas por IA, como Lumiere de Meta y Google. Asimismo, otras empresas emergentes también ofrecen herramientas similares, como Stability AI con su producto Stable Video Diffusion, y Amazon con Create with Alexa, diseñado para generar contenido animado corto basado en instrucciones.
Actualmente, Sora está limitado a la generación de videos de un minuto de duración o menos. Sin embargo, OpenAI, respaldada por Microsoft, tiene como objetivo ampliar su gama de modelos de IA mediante la integración de la multimodalidad, que combina la generación de texto, imagen y video.
Brad Lightcap, COO de OpenAI, subraya la importancia de la multimodalidad al afirmar que "el mundo es multimodal", destacando la necesidad de ir más allá del texto y el código como únicas formas de interactuar con los potentes modelos de IA.
Video generado con el prompt: "Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes".
Aunque por el momento Sora solo ha sido accesible para un reducido grupo de probadores de seguridad, OpenAI tiene previsto expandir su disponibilidad en un futuro próximo. Además, la compañía está trabajando en el desarrollo de un "clasificador de detección" que permita identificar los videos generados por Sora, así como en la inclusión de metadatos específicos para facilitar la identificación del contenido generado por IA.
Sora representa un paso adelante en la capacidad de la IA para comprender y simular el mundo real, utilizando la arquitectura Transformer, al igual que ChatGPT, como base para su funcionamiento. Con esta nueva herramienta, OpenAI demuestra una vez más su compromiso con la innovación y el avance en el campo de la inteligencia artificial.
Le puede interesar:
Comments