OpenAI apresenta Sora, IA que transforma texto em vídeo

Continua após a publicidade

OpenAI apresenta Sora

Novo modelo de geração de vídeo

OpenAI apresenta Sora, IA que transforma texto em vídeo, um novo modelo de geração de vídeo chamado Sora. A empresa de IA afirma que o Sora “pode criar cenas realistas e imaginativas a partir de instruções de texto”. O modelo texto-para-vídeo permite aos usuários criar vídeos fotorrealistas de até um minuto – tudo baseado em prompts que eles escreveram.

De acordo com o post de apresentação do blog da OpenAI, o Sora é capaz de criar “cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do plano de fundo”. A empresa também observa que o modelo pode entender como os objetos “existem no mundo físico”, bem como “interpretar com precisão adereços e gerar personagens convincentes que expressam emoções vibrantes”.

Gere vídeo a partir de imagens

Continua após a publicidade

O modelo também pode gerar um vídeo com base em uma imagem estática, além de preencher quadros faltantes em um vídeo existente ou estendê-lo.

As demos geradas pelo Sora incluídas no post do blog da OpenAI incluem uma cena aérea da Califórnia durante a corrida do ouro, um vídeo que parece ter sido filmado de dentro de um trem de Tóquio e outros.

Muitos têm alguns sinais reveladores de IA – como um piso se movendo suspeitamente em um vídeo de um museu – e a OpenAI diz que o modelo “pode ter dificuldade em simular com precisão a física de uma cena complexa”, mas os resultados são, no geral, bastante impressionantes.

Novo substituto do Midjourney?

Há alguns anos, eram os geradores de texto para imagem como o Midjourney que estavam na vanguarda da capacidade dos modelos de transformar palavras em imagens.

Mas recentemente, o vídeo começou a melhorar em um ritmo notável: empresas como Runway e Pika mostraram seus próprios modelos de texto para vídeo impressionantes, e o Lumiere do Google também se figura como um dos principais concorrentes da OpenAI neste espaço.

Semelhante ao Sora, o Lumiere oferece aos usuários ferramentas de texto para vídeo e também permite a criação de vídeos a partir de uma imagem estática.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

OpenAI apresenta Sora

Já está aberto ao público o Sora?

Atualmente, o Sora está disponível apenas para “red teamers” que estão avaliando o modelo para potenciais danos e riscos. A OpenAI também está oferecendo acesso a alguns artistas visuais, designers e cineastas para obter feedback.

Ela observa que o modelo existente pode não simular com precisão a física de uma cena complexa e pode não interpretar corretamente certos casos de causa e efeito.

No início deste mês, a OpenAI anunciou que está adicionando marcas d’água à sua ferramenta de texto para imagem DALL-E 3, mas observa que elas podem ser “facilmente removidas”. Como seus outros produtos de IA, a OpenAI terá que lidar com as consequências de vídeos fotorrealistas falsos sendo confundidos com a realidade.

Fonte: The Verge (OpenAI apresenta Sora)