Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco
Show simple item record
| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Silvano, Wellington Fernandes |
|
| dc.contributor.author |
Konrath, Maurício |
|
| dc.date.accessioned |
2025-12-02T20:43:13Z |
|
| dc.date.available |
2025-12-02T20:43:13Z |
|
| dc.date.issued |
2025-11-28 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/270430 |
|
| dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. |
pt_BR |
| dc.description.abstract |
Este trabalho desenvolve e valida um protocolo empírico para mensurar risco e sensibilidade em
documentos textuais, com foco na confiabilidade probabilística (calibração) e na minimização de
falsos negativos em cenários de governança de dados. O estudo compara baselines tradicionais
(SVM, Random Forest) e modelos baseados em Transformers (ModernBERT, BERTimbau) em
um corpus bilíngue derivado do Monsanto Papers, com quatro categorias de risco. O protocolo
emprega validação estratificada e um conjunto de métricas que incluem MCC e o Erro de
Calibração Esperado (ECE), além da análise do ponto de operação por otimização de limiar
(τ) e do trade-off cobertura–acurácia. Os resultados em PT-BR evidenciam superioridade do
BERTimbau (MCC = 0,9865; ECE = 0,0063), superando SVM (ECE = 0,0222) e Random
Forest (ECE = 0,0596), o que indica maior fidelidade entre confiança predita e probabilidade
real de acerto e, portanto, melhor adequação a aplicações reguladas sob a LGPD. Discute-se
ainda a validade externa e limitações, bem como direções futuras. |
pt_BR |
| dc.format.extent |
96 f. |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Florianópolis, SC. |
pt_BR |
| dc.rights |
Open Access. |
|
| dc.subject |
Processamento de Linguagem Natural; Classificação de Texto; Transformers; Calibração de Modelos; LGPD; Segurança da Informação. |
pt_BR |
| dc.title |
Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |
| dc.contributor.advisor-co |
Custódio, Ricardo Felipe |
|
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar