El desarrollo permite crear animación muy realistas a partir de una imagen estática como referencia. ¿Cómo funciona?
El Instituto de Computación Inteligente de Alibaba Group ha desarrollado una nueva técnica de video generativo llamada Animate Anyone, que representa un significativo avance respecto a sistemas anteriores como DisCo y DreamPose.
A diferencia de las imágenes estáticas de deepfakes, Animate Anyone posibilita la creación de videos convincentes que pueden ser utilizados para manipulaciones más sofisticadas.
El proceso comienza extrayendo detalles faciales, patrones y posturas de una imagen de referencia, como una fotografía de moda. A partir de estos detalles, se crean una serie de imágenes que representan ligeras variaciones en la pose, capturando movimientos sutiles que pueden provenir de la captura de movimiento o de otro video existente.
La técnica aborda problemas como la "alucinación", donde el modelo inventa detalles plausibles, como el movimiento del cabello o de las mangas al girar una persona. Aunque aún no es perfecta, la técnica ha logrado reducir de manera significativa la presencia de elementos extraños en los videos generados.
El equipo de investigadores destaca un nuevo paso intermedio en el proceso, que permite al modelo aprender de manera más completa la relación con la imagen de referencia en un espacio de características coherente. Esto contribuye de manera significativa a mejorar la preservación de detalles en la apariencia final del video.
En las demostraciones realizadas por los desarrolladores, modelos de moda asumen poses arbitrarias sin deformaciones notables y prendas que conservan sus patrones. Incluso una figura de anime 2D cobra vida y realiza movimientos convincentes. A pesar de estos avances, el modelo aún enfrenta desafíos, especialmente en la representación de ojos y manos, y las poses más alejadas de la imagen original.
La tecnología plantea preocupaciones éticas y de seguridad, ya que con una única imagen de alta calidad, alguien malintencionado podría crear videos de una persona realizando acciones y expresando mensajes falsos. Aunque la complejidad y las fallas actuales limitan su uso generalizado, los avances en el campo de la inteligencia artificial suelen avanzar rápidamente.
El equipo de desarrollo aún no ha liberado el código públicamente, pero han asegurado que están trabajando activamente en preparar una demostración y el código fuente para su eventual lanzamiento. Aunque no han especificado una fecha de lanzamiento, han expresado su firme intención de proporcionar acceso tanto a la demostración como al código fuente en un futuro próximo.
Comments