Meta fez DALL-E para vídeo, e é assustador e incrível

A Meta revelou um modelo maluco de inteligência artificial que permite aos usuários transformar suas descrições digitadas em vídeo. O sistema é chamado Make-A-Video e é o mais recente em uma tendência de conteúdo gerado por IA na web.

O sistema aceita descrições curtas como “um robô surfando uma onda no oceano” ou “peixe-palhaço nadando no recife de coral” e gera dinamicamente um pequeno GIF da descrição. Existem até três estilos diferentes de vídeos para escolher: surreal, realista e estilizado.

real1 — A pintura de pincel de um artista em uma tela de perto

De acordo com uma postagem no Facebook do CEO da Meta, Mark Zuckerberg, traduzir texto escrito em vídeo é muito mais difícil por causa de como o vídeo requer movimento:

“É muito mais difícil gerar vídeo do que fotos porque além de gerar corretamente cada pixel, o sistema também precisa prever como eles vão mudar ao longo do tempo. O Make-A-Video resolve isso adicionando uma camada de aprendizado não supervisionado que permite ao sistema entender o movimento no mundo físico e aplicá-lo à geração tradicional de texto para imagem.”

real3 — Um jovem casal caminhando em uma chuva forte

A equipe de pesquisa de IA da Meta escreveu um artigo descrevendo como o sistema funciona e como ele difere dos métodos atuais de texto para imagem (T2I). Ao contrário de outros modelos de linguagem de máquina, o método Text-to-Video (T2V) do Meta não usa pares de texto-vídeo predefinidos. Por exemplo, não combina “homem andando” com um vídeo de um homem andando de verdade.

Se isso se parece muito com o DALL-E, o popular aplicativo T2I, você não estaria longe. Outros aplicativos T2I foram lançados desde que o DALL-E ganhou popularidade. O TikTok lançou um filtro em agosto chamado AI Greenscreen que gera imagens de estilo de pintura com base nas palavras que você digita.

surreal4 — Um bebê preguiça fofo com um chapéu de malha laranja tentando descobrir um laptop fechar uma tela de iluminação de estúdio altamente detalhada refletindo em seus olhos

O conteúdo gerado por IA tornou-se bastante interessante nos últimos anos. A tecnologia deepfake, técnicas de aprendizado de máquina para substituir o rosto de uma pessoa por outra, é usada até mesmo por estúdios de efeitos visuais para programas de grande orçamento como The Mandalorian.

Em julho, o Times relatou erroneamente sobre uma mulher ucraniana no meio da guerra Rússia-Ucrânia. O problema é que ela não era real.

A ameaça da IA provavelmente não é uma ameaça real, mas projetos como DALL-E e Make-A-Video são explorações divertidas de algumas das possibilidades interessantes.

Com informações de Digital Trends.