Ufam desenvolve sistema que mede veracidade e detecta ‘alucinações’ da Inteligência Artificial

Continua após a publicidade

Um grupo de pesquisadores da Universidade Federal do Amazonas (Ufam) desenvolve uma ferramenta capaz de avaliar a confiabilidade das respostas produzidas por sistemas de Inteligência Artificial generativa, como o ChatGPT e o Gemini.

O projeto, batizado de Kenobi em homenagem ao personagem Obi Wan Kenobi da franquia cinematográfica “Guerra nas Estrelas”, está em desenvolvimento no Departamento de Engenharia Elétrica e Engenharia da Computação, sob coordenação do professor Celso Barbosa Carvalho.

Em entrevista ao RealTime1, o pesquisador explicou que o objetivo do sistema é detectar as chamadas “alucinações” — termo técnico utilizado para designar respostas incorretas, inventadas ou imprecisas fornecidas por modelos de linguagem.

“As LLMs, como o ChatGPT, às vezes mentem, inventam respostas ou criam informações que não são verídicas. A nossa plataforma foi criada justamente para medir a qualidade e a confiabilidade dessas respostas”, afirmou.

Como funciona o sistema

A ferramenta, desenvolvida para a empresa TPV da Amazônia, investidora do projeto, funciona de forma integrada aos grandes modelos de linguagem (LLMs), sem necessidade de conexão com a internet.

Segundo Carvalho, o sistema formula perguntas ao modelo de IA e avalia as respostas a partir de múltiplas métricas, baseadas em estudos científicos.

“Essas métricas analisam se o conteúdo está completo, se é verídico, se a construção da resposta é coerente e até se uma tradução foi feita corretamente. A partir disso, o sistema gera uma pontuação de 0 a 100 que representa o nível de confiança da resposta”, explicou o professor.

📲 Participe do canal do RealTime1 no Instagram

O Kenobi utiliza parâmetros diversos para examinar a estrutura e a veracidade das respostas em diferentes contextos. “Trabalhamos também na parte chamada retrieved generation, que é quando as IAs consultam a internet para complementar informações. Nessa etapa, estamos desenvolvendo métricas específicas para avaliar a precisão desse processo”, completou.

Projeto em fase avançada

Com duração prevista de 16 meses, o projeto já cumpre sua 11ª etapa de desenvolvimento e apresenta funcionalidades operacionais.

“O sistema já está funcional, embora ainda não completo. Estamos avançando no ritmo planejado e com bons resultados em relação às métricas implementadas”, destacou Carvalho.

Além de medir a confiabilidade das respostas, o projeto tem potencial para aumentar a transparência e a segurança do uso corporativo de Inteligência Artificial, especialmente em ambientes que exigem alto rigor técnico, como empresas, universidades e órgãos públicos.

Leia Mais:

Veja mais Notícias sobre Tecnologia