Así es Meta Movie Gen, la IA con la que generar vídeos y audios profesionales
Meta Movie Gen puede crear, personalizar y editar vídeos, además de generar audio. Por ahora no está disponible de forma pública.
Meta ha presentado Meta Movie Gen, una IA generativa que puede crear vídeos y sonidos personalizados a partir de entradas de texto simple, así como editar vídeos existentes y transformar una imagen en un vídeo único. Está ideada para resultar de utilidad tanto a profesionales del mundo del cine como a creadores que quieran crear contenido más fácilmente.
Este modelo se enmarca dentro de la que Meta ha bautizado como su “tercera ola de IA generativa” y para desarrollarlo se han basado en investigaciones y productos previos como Make-A-Scene y Llama Image. El acceso público a Movie Gen aún no está disponible, y la tecnológica ha afirmado que, por el momento, continuará desarrollando esta IA en estrecha colaboración con cineastas y creadores de contenido.
Meta Movie Gen: cuatro capacidades diferentes
Meta presenta cuatro capacidades: generación de vídeo, vídeo personalizado, edición de vídeo y generación de audio. Además, asegura que su modelo «supera a modelos similares en la industria en estas tareas cuando lo evalúan humanos».
Generación de vídeo
La primera función de Meta Movie Gen es crear imágenes y vídeos de alta calidad y alta definición a partir de una entrada de texto en lenguaje natural. El modelo transforma parámetros 30B para crear vídeos de hasta 16 segundos de duración a una velocidad de 16 fotogramas por segundo.
Además de esto, los modelos de Movie Gen pueden razonar sobre el movimiento de objetos, interacciones entre el sujeto y los objetivos, así como el movimiento de la cámara. Gracias a lo cual, «pueden aprender movimientos plausibles para una amplia variedad de conceptos, lo que los convierte en modelos de última generación en su categoría».
Vídeos personalizados
Otra de las capacidades de Movie Gen es que puede generar vídeos personalizados a partir de una imagen existente. Para ello, tan solo hay que cargar la imagen y añadir indicaciones escritas que describan la nueva escena y el movimiento.
Según Meta: «nuestro modelo logra resultados de última generación cuando se trata de crear vídeos personalizados que preservan la identidad y el movimiento humanos».
Edición de vídeo
Movie Gen también puede editar vídeos existentes a partir de entradas de texto. Pudiendo hacer cambios pequeños como agregar, eliminar o cambiar algún elemento específico; o hacer cambios más grandes, como modificar el fondo o estilo del elemento.
En este sentido, Meta afirma, «A diferencia de las herramientas tradicionales que requieren habilidades especializadas o generativas que carecen de precisión, Movie Gen conserva el contenido original y se dirige solo a los píxeles relevantes».
Generación de audio
Por último, Movie Gen puede crear audios de hasta 45 segundos de sonido ambiental, efectos de sonido (Foley) y música de fondo instrumental, tomando como base un vídeo existente e indicaciones de texto. Este audio puede sincronizarse para que coincida con el contenido del vídeo final.
Asimismo, el modelo presenta una función de extensión de audio, con el que se puede crear un audio coherente para diferentes duraciones, «logrando en general un rendimiento de última generación en calidad de audio, alineación de vídeo a audio y alineación de texto a audio».
Constante innovación de Meta
Según ha afirmado Meta, este nuevo lanzamiento se ciñe a una larga trayectoria de investigaciones fundamentales de IA que incluyen tres olas de trabajo de IA generativa. «Nuestra primera ola de trabajo de IA generativa comenzó con la serie de modelos Make-A-Scene que permitieron la creación de imágenes, audio, vídeo y animación 3D.
Con la llegada de los modelos de difusión, tuvimos una segunda ola de trabajo con los modelos básicos de Llama Image, que permitieron la generación de imágenes y vídeos de mayor calidad, así como la edición de imágenes. Movie Gen es nuestra tercera ola, combina todas estas modalidades y permite un control más detallado para las personas que usan los modelos de una manera que nunca antes había sido posible».
A pesar de los grandes avances tecnológicos y el gran uso que se puede hacer gracias a los modelos de IA, Meta asegura que «es importante tener en cuenta que la IA generativa no reemplaza el trabajo de los artistas y animadores».
Una de las principales preocupaciones de la IA son los datos con los que han sido entrenados los modelos. Recordemos la polémica que vivió OpenAI después de que un informe de The New York Times mostrase que la tecnológica desarrolló «Whisper» transcribiendo audios de vídeos de YouTube. En este sentido, Meta asegura que ha entrenado su modelo a partir de «una combinación de conjuntos de datos con licencia y disponibles públicamente», aunque no especificó qué datos.
Marketing4ecommerce