Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco
Show full item record
|
Title:
|
Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco |
|
Author:
|
Konrath, Maurício
|
|
Abstract:
|
Este trabalho desenvolve e valida um protocolo empírico para mensurar risco e sensibilidade em
documentos textuais, com foco na confiabilidade probabilística (calibração) e na minimização de
falsos negativos em cenários de governança de dados. O estudo compara baselines tradicionais
(SVM, Random Forest) e modelos baseados em Transformers (ModernBERT, BERTimbau) em
um corpus bilíngue derivado do Monsanto Papers, com quatro categorias de risco. O protocolo
emprega validação estratificada e um conjunto de métricas que incluem MCC e o Erro de
Calibração Esperado (ECE), além da análise do ponto de operação por otimização de limiar
(τ) e do trade-off cobertura–acurácia. Os resultados em PT-BR evidenciam superioridade do
BERTimbau (MCC = 0,9865; ECE = 0,0063), superando SVM (ECE = 0,0222) e Random
Forest (ECE = 0,0596), o que indica maior fidelidade entre confiança predita e probabilidade
real de acerto e, portanto, melhor adequação a aplicações reguladas sob a LGPD. Discute-se
ainda a validade externa e limitações, bem como direções futuras. |
|
Description:
|
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. |
|
URI:
|
https://repositorio.ufsc.br/handle/123456789/270430
|
|
Date:
|
2025-11-28 |
Files in this item
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar