Por que razão a inteligência artificial ainda falha tanto na leitura de PDF?

Continua após a publicidade

Apesar de conseguirem resolver algoritmos complexos e gerar código de programação, os modelos de inteligência artificial (IA) continuam a enfrentar dificuldades inesperadas ao processar ficheiros PDF. Por que razão é que isto acontece?

Continua após a publicidade

A contradição tecnológica da IA

É uma experiência comum para muitos utilizadores: ao carregar um PDF num chatbot como o ChatGPT ou o Gemini, a expectativa é obter um resumo impecável ou a extração precisa de dados. No entanto, o resultado é, por vezes, uma confusão de colunas trocadas, notas de rodapé inseridas no meio do corpo de texto ou tabelas que se tornam blocos de caracteres ilegíveis.

Existe uma clara contradição entre a capacidade destas ferramentas para dominar a matemática avançada e a sua incapacidade de interpretar um formato de ficheiro que utilizamos diariamente há décadas.

Para um ser humano, um PDF é um documento organizado com parágrafos e títulos claros. Contudo, para um sistema informático, a realidade é muito distinta. O PDF foi concebido, acima de tudo, como uma descrição visual de como uma página deve ser apresentada no ecrã ou no papel.

Quando uma IA tenta ler este ficheiro, não encontra necessariamente uma estrutura lógica e sequencial, mas sim um conjunto de coordenadas geográficas e instruções gráficas. Antes de conseguir formular uma resposta coerente, o sistema precisa de reconstruir mentalmente o "esqueleto" do documento, um processo que nem sempre é bem-sucedido.

pdf 00

A ausência de estrutura semântica no PDF face ao HTML

Ao contrário de uma página web, onde o código HTML define explicitamente o que é um título, um parágrafo ou uma célula de uma tabela, o PDF armazena o texto como fragmentos isolados. Estes pedaços de informação estão posicionados em pontos específicos da página, mas não possuem uma relação hierárquica intrínseca entre si.

Isto significa que a ordem pela qual o texto é extraído pode não corresponder à ordem de leitura lógica. Se o ficheiro contiver múltiplas colunas ou elementos gráficos sobrepostos, a IA é obrigada a deduzir como essas peças encaixam, o que frequentemente resulta em erros de interpretação semântica.

Perante esta dificuldade, o recurso ao reconhecimento ótico de caracteres (OCR) parece ser a solução óbvia. Esta tecnologia, utilizada há muito tempo para converter imagens em texto, consegue identificar letras e palavras com precisão.

Contudo, reconhecer caracteres é muito diferente de compreender a hierarquia de um documento. Mesmo que a máquina identifique todas as palavras numa página, ela pode não saber se uma determinada frase pertence a um parágrafo principal ou a uma legenda lateral. O problema, portanto, não reside na leitura das letras, mas sim na incapacidade de organizar a informação de forma contextualizada.

Leia também:

Saiba mais sobre Inteligência Artificial