Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco

DSpace Repository

A- A A+

Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Silvano, Wellington Fernandes
dc.contributor.author Konrath, Maurício
dc.date.accessioned 2025-12-02T20:43:13Z
dc.date.available 2025-12-02T20:43:13Z
dc.date.issued 2025-11-28
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/270430
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação. pt_BR
dc.description.abstract Este trabalho desenvolve e valida um protocolo empírico para mensurar risco e sensibilidade em documentos textuais, com foco na confiabilidade probabilística (calibração) e na minimização de falsos negativos em cenários de governança de dados. O estudo compara baselines tradicionais (SVM, Random Forest) e modelos baseados em Transformers (ModernBERT, BERTimbau) em um corpus bilíngue derivado do Monsanto Papers, com quatro categorias de risco. O protocolo emprega validação estratificada e um conjunto de métricas que incluem MCC e o Erro de Calibração Esperado (ECE), além da análise do ponto de operação por otimização de limiar (τ) e do trade-off cobertura–acurácia. Os resultados em PT-BR evidenciam superioridade do BERTimbau (MCC = 0,9865; ECE = 0,0063), superando SVM (ECE = 0,0222) e Random Forest (ECE = 0,0596), o que indica maior fidelidade entre confiança predita e probabilidade real de acerto e, portanto, melhor adequação a aplicações reguladas sob a LGPD. Discute-se ainda a validade externa e limitações, bem como direções futuras. pt_BR
dc.format.extent 96 f. pt_BR
dc.language.iso por pt_BR
dc.publisher Florianópolis, SC. pt_BR
dc.rights Open Access.
dc.subject Processamento de Linguagem Natural; Classificação de Texto; Transformers; Calibração de Modelos; LGPD; Segurança da Informação. pt_BR
dc.title Classificação de Documentos Sensíveis: Uma Avaliação Comparativa de Transformers e Baselines com Ênfase na Calibração de Risco pt_BR
dc.type TCCgrad pt_BR
dc.contributor.advisor-co Custódio, Ricardo Felipe


Files in this item

Files Size Format View Description
Final_Classific ... sivel_TCC_Mauricio (1).pdf 8.934Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar