Google estreia IA poderosa para transformar imagens em animações

O novo modelo de linguagem da Google promete transformar a produção de vídeos e ampliar horizontes na IA multimídia.

O Google deu um passo revolucionário ao anunciar o VideoPoet, um modelo de linguagem de grande escala (LLM) capaz de gerar vídeos por meio de inteligência artificial (IA).

Este avanço surge para enfrentar os desafios atuais no campo, focando especialmente na dificuldade de produzir movimentos amplos e coerentes, de acordo com declarações da empresa.

Avanço revolucionário na inteligência artificial

O VideoPoet se destaca por sua versatilidade, revelada no blog Google Research, que abrange avanços na área de pesquisa da gigante da tecnologia. Este modelo incorpora funções diversas, como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo e até a geração de áudio a partir de vídeos.

Imagem: Google/reprodução

Uma das características marcantes do VideoPoet é a capacidade de animar imagens e editar vídeos, utilizando técnicas de inpainting (preenchimento de espaços) e outpainting (extensão de imagens), diferenciando-se de modelos baseados em difusão, como o Imagen Video. Ele integra diversas capacidades de geração de vídeo em um único LLM.

O VideoPoet oferece uma grande variedade de funcionalidades, incluindo a capacidade de gerar vídeos a partir de textos, animar imagens estáticas, estilizar com base em informações de profundidade e fluxo óptico e até mesmo criar clipes de áudio sem depender de orientação textual.

Além de tudo isso, destaca-se por possibilitar a geração de vídeos no formato retrato, especialmente adequado para conteúdo de curta duração.

De acordo com informações do Google, o VideoPoet demonstrou habilidades excepcionais na geração de vídeos extensos, mantendo a consistência visual dos objetos. Sua capacidade de edição interativa permite a manipulação de objetos para realizar diversas ações, enquanto comandos de texto oferecem controle preciso sobre os movimentos da câmera.

A postagem no blog enfatiza o potencial vasto dos LLMs na geração de conteúdo de vídeo. A alta qualidade dos vídeos gerados sugere possíveis expansões para outras áreas, como texto-para-áudio, áudio-para-vídeo e legendagem automática de vídeos, abrindo novos horizontes na inteligência artificial e multimídia, de acordo com a Google.

você pode gostar também

Comentários estão fechados.