Criado pela Adobe há três décadas, o PDF se tornou sinônimo de documento digital confiável. A proposta era simples: preservar a aparência de uma página impressa em qualquer dispositivo. Mas, na era da inteligência artificial, esse mesmo diferencial virou obstáculo.
Diferentemente de páginas web ou arquivos de texto simples, o PDF não é estruturado com base em lógica textual, mas em coordenadas gráficas. Cada letra é posicionada exatamente onde deve aparecer na página. Para humanos, isso garante consistência visual. Para modelos de linguagem, porém, significa dificuldade para entender a ordem correta do texto, a hierarquia de títulos ou a separação entre colunas.
O resultado são erros sutis que podem gerar interpretações equivocadas e até “alucinações”, quando a IA inventa informações ao tentar resumir ou analisar documentos complexos, como artigos científicos cheios de colunas, tabelas e notas de rodapé.
Problema estaria no PDF ou na IA?
Além do desafio técnico, há também a questão da segurança. A empresa de cibersegurança Check Point aponta que cerca de um em cada cinco ataques por email envolve PDFs maliciosos, explorando a capacidade do formato de incorporar scripts e links. Ou seja, o mesmo padrão amplamente usado para contratos, pesquisas e formulários também é um vetor frequente de malware.
Enquanto a PDF Association defende que o problema está nas ferramentas de IA e não no formato, startups como a Factify apostam na criação de novos modelos de documentos pensados desde o início para dialogar com sistemas inteligentes.
Mesmo com críticas e limitações, o PDF continua dominante. Estima-se que trilhões de arquivos circulem globalmente. A questão agora é se ele conseguirá evoluir rápido o suficiente para continuar relevante e seguro na era da automação baseada em IA.
Ver 0 Comentários