Meta anuncia novo modelo de IA de código aberto

Continua após a publicidade

Meta anuncia novo modelo de IA de código aberto

Novo modelo de IA de código aberto

A Meta anunciou um novo modelo de IA de código aberto que interliga várias correntes de dados, incluindo texto, áudio, dados visuais, temperatura e leituras de movimento.

O modelo é apenas um projeto de pesquisa neste momento, sem aplicações práticas ou imediatas para os consumidores, mas aponta para um futuro de sistemas de AI gerativos que podem criar experiências imersivas e multisensoriais e mostra que a Meta continua a compartilhar pesquisas em AI em um momento em que rivais como OpenAI e Google se tornaram cada vez mais secretos.

O conceito central da pesquisa é a interligação de vários tipos de dados em um único índice multidimensional (ou “espaço de incorporação”, usando a linguagem da AI). Esta ideia pode parecer um pouco abstrata, mas é esse mesmo conceito que fundamenta o recente boom em AI generativa.

Modelos de IA multimodais são o coração do boom em IA generativa

Por exemplo, geradores de imagens de AI como DALL-E, Stable Diffusion e Midjourney dependem de sistemas que conectam texto e imagens durante a fase de treinamento. Eles procuram padrões em dados visuais enquanto conectam essa informação a descrições das imagens.

É isso que permite que esses sistemas gerem imagens que seguem as entradas de texto dos usuários. O mesmo acontece com muitas ferramentas de AI que geram vídeo ou áudio da mesma maneira.

A Meta diz que seu novo modelo de IA, o ImageBind, é o primeiro a combinar seis tipos de dados em um único espaço de incorporação. Os seis tipos de dados incluídos no modelo são:

Visual (na forma de imagem e vídeo);
Térmico (imagens infravermelhas);
Texto
Áudio
Informações de profundidade;
E o mais intrigante de todos: Leituras de movimento geradas por uma unidade de medição inercial ou IMU. (As IMUs são encontradas em telefones e smartwatches, onde são usadas para uma variedade de tarefas, desde alternar um telefone de paisagem para retrato até distinguir entre diferentes tipos de atividade física.)

O modelo ImageBind da Meta combina seis tipos de dados: áudio, visual, texto, profundidade, temperatura e movimento. Imagem: Meta. — O novo modelo de IA ImageBind da Meta combina seis tipos de dados: áudio, visual, texto, profundidade, temperatura e movimento.

Continua após a publicidade

Sistemas de IA futuros

A ideia é que os sistemas de IA futuros possam cruzar referências entre esses dados da mesma forma que os sistemas de AI atuais fazem com as entradas de texto. Imagine, por exemplo, um dispositivo de realidade virtual futurista que não só gera entrada de áudio e visual, mas também o ambiente e o movimento em um palco físico. Você poderia pedir para ele emular uma longa viagem marítima e ele não só o colocaria em um navio com o som das ondas ao fundo, mas também a balançada do convés sob seus pés e a brisa fresca do ar do oceano.

Em uma postagem no blog, a Meta observa que outras correntes de entrada sensorial poderiam ser adicionadas a modelos futuros, incluindo “toque, fala, cheiro e sinais de fMRI cerebral”. A empresa também afirma que a pesquisa “aproxima as máquinas da capacidade dos humanos de aprender simultaneamente, holisticamente e diretamente a partir de muitas formas diferentes de informações”. No entanto, isso é tudo muito especulativo e provavelmente as aplicações imediatas da pesquisa serão muito mais limitadas.

Para observadores do setor, a pesquisa é interessante porque a Meta está disponibilizando o novo modelo de IA subjacente em código aberto – uma prática cada vez mais questionada no mundo da IA. Aqueles que se opõem à disponibilização em código aberto, como a OpenAI, dizem que a prática é prejudicial aos criadores porque os concorrentes podem copiar seu trabalho e que isso pode ser potencialmente perigoso, permitindo que atores mal-intencionados tirem proveito de modelos de IA de ponta.

Os defensores argumentam que a disponibilização em código aberto permite que terceiros examinem os sistemas em busca de falhas e melhorem algumas de suas deficiências. Eles observam que isso pode até fornecer um benefício comercial, pois essencialmente permite que as empresas recrutem desenvolvedores terceirizados como trabalhadores não remunerados para melhorar seu trabalho.