Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco

DSpace Repository

A- A A+

Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco

Show full item record

Title: Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco
Author: Konrath, Maurício
Abstract: Este trabalho desenvolve e valida um protocolo empírico para mensurar risco e sensibilidade em documentos textuais, com foco na confiabilidade probabilística (calibração) e na minimização de falsos negativos em cenários de governança de dados. O estudo compara baselines tradicionais (SVM, Random Forest) e modelos baseados em Transformers (ModernBERT, BERTimbau) em um corpus bilíngue derivado do Monsanto Papers, com quatro categorias de risco. O protocolo emprega validação estratificada e um conjunto de métricas que incluem MCC e o Erro de Calibração Esperado (ECE), além da análise do ponto de operação por otimização de limiar (τ) e do trade-off cobertura–acurácia. Os resultados em PT-BR evidenciam superioridade do BERTimbau (MCC = 0,9865; ECE = 0,0063), superando SVM (ECE = 0,0222) e Random Forest (ECE = 0,0596), o que indica maior fidelidade entre confiança predita e probabilidade real de acerto e, portanto, melhor adequação a aplicações reguladas sob a LGPD. Discute-se ainda a validade externa e limitações, bem como direções futuras.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/270430
Date: 2025-11-28


Files in this item

Files Size Format View Description
Final_Classific ... sivel_TCC_Mauricio (1).pdf 8.934Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar