top of page
Malka Mekler

Google presenta VLOGGER: cómo transformar fotografías estáticas en videos realistas

A diferencia de intentos anteriores, esta plataforma no requiere entrenamiento específico para cada persona y puede manejar una amplia gama de situaciones y expresiones faciales.



Google presentó recientemente un proyecto innovador que podría revolucionar la forma en que interactuamos con las imágenes estáticas: VLOGGER. De acuerdo con Whatsnew, esta herramienta fue desarrollada por un equipo de investigadores de la empresa y tiene como objetivo transformar fotografías estáticas en videos realistas de personas hablando y gesticulando.


Aunque por ahora VLOGGER está en fase de estudio y solo se dispone de un PDF con detalles técnicos, las posibles aplicaciones de esta tecnología ya están generando un gran interés en todo el mundo. Desde la edición de video hasta la creación de asistentes virtuales más expresivos, las posibilidades parecen infinitas. Sin embargo, como ocurre con cualquier avance tecnológico, también surgen preocupaciones, especialmente en lo que respecta a los deepfakes y la desinformación.


La clave detrás de la misma radica en el uso de modelos de difusión, una técnica de aprendizaje automático que ha demostrado ser excepcionalmente efectiva para generar imágenes realistas a partir de descripciones de texto. Este enfoque se ha expandido al dominio del video, permitiendo animar fotos fijas de manera convincente. 


Lo que diferencia a VLOGGER de intentos anteriores es su capacidad para trabajar sin necesidad de entrenar el modelo para cada persona específica, así como su habilidad para manejar todo el cuerpo y adaptarse a una amplia gama de situaciones y expresiones faciales. El motor detrás de esta innovadora tecnología es MENTOR, un conjunto de datos masivo que comprende más de 800.000 identidades distintas y 2.200 horas de video. Esta extensa colección de datos permite al modelo capturar y reproducir la diversidad humana en sus videos, abarcando diferentes etnias, edades, expresiones y contextos.


A pesar de sus potenciales beneficios, la presentación de dicha herramienta también ha avivado el debate sobre los deepfakes sofisticados y sus implicaciones éticas y sociales. La capacidad de generar videos convincentes de personas que en realidad no están hablando plantea preocupaciones sobre la manipulación y la desinformación.




Comentarios


bottom of page