Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito

DSpace Repository

A- A A+

Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Giglio, Ricardo Farias
dc.contributor.author Dória, Fernanda Guimarães
dc.date.accessioned 2019-12-06T14:17:49Z
dc.date.available 2019-12-06T14:17:49Z
dc.date.issued 2019-11-13
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/202392
dc.description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de Produção pt_BR
dc.description.abstract O segmento de análise de dados tem apresentado crescimento exponencial nos mercados nacionais e internacionais nos últimos anos, possibilitando uma tomada de decisão baseada em métodos estatísticos e proporcionando uma substancial melhora nos resultados econômicos. Nesse contexto, a avaliação individual no mercado de análise de crédito vem continuamente buscando novas formas de renovação tecnológica, introduzindo diferentes aspectos de caracterização através da utilização de diversos tipos de dados pessoais. O presente trabalho busca, dessa maneira, criar novas variáveis a partir de dados de compra do varejo, de forma a categorizar comportamentos inadimplentes e complementar sistemas de avaliação já disponíveis no mercado. Os dados foram trabalhados visando a quantificação de diferentes parâmetros comportamentais através da criação de features, possibilitando sua aplicação em modelos de classificação e utilizando como variável resposta dados de uma plataforma online de modelagem preditiva. O processo interativo de análise, em que cada teste foi feito utilizando diferentes combinações de variáveis e modelos preditivos, permitiu comparar resultados através de métricas estatísticas ao final de cada ciclo, apontando quais apresentaram melhores rendimentos. Foram utilizadas ferramentas estatísticas e feature importance de diferentes modelos de classificação para a seleção de variáveis (Ridge Classifier e Balanced Random Forest), buscando comparar os modelos Random Forest, Ridge classifier e Regressão Logística quanto ao desempenho com base nas métricas ROC-AUC e MCC. O desenvolvimento dos passos apresentados resultaram em 15 combinações de grupos de variáveis e modelos estatísticos, apontando para regressão logística como modelo mais eficiente na predição de possíveis inadimplentes e a seleção de features baseada em diferentes modelos de previsão para limitação das variáveis utilizadas no algoritmo, resultando em um índice AUC-ROC de 0,647 e MCC de 0,095. pt_BR
dc.description.abstract The data analysis segment has shown exponential growth in national and international markets in the last years, enabling decision making based on statistical methods and providing a substantial improvement in economic results. In this context, the individual evaluation in the credit analysis market has been continually seeking new ways of technological renewal, introducing different aspects of characterization through the use of different types of personal data. Thus, the present work seeks to create new variables from retail purchase data, in order to categorize default behaviors and complement evaluation systems that are already available in the market. The data were manipulated aiming the quantification of different behavioral parameters through the creation of features, enabling its application in classification models and using as an answer variable data from an online predictive modeling platform. The interactive process of analysis, in which each test was done using different combinations of variables and predictive models, allowed to compare results through statistical metrics at the end of each cycle, indicating which ones presented better yields. Statistical tools and feature importance of different classification models were used for the variable selection (Ridge Classifier and Balanced Random Forest), seeking to compare the Random Forest, Ridge Classifier and Logistic Regression models as its performance based on the ROC-AUC and MCC metrics. The development of the presented steps resulted in 15 combinations of variable groups and statistical models, pointing to logistic regression as the most efficient model for predicting possible defaults and feature selection based on different forecasting models to limit the variables used in the algorithm, resulting in an AUC-ROC index of 0,647 and MCC of 0,095. pt_BR
dc.format.extent 53 f. pt_BR
dc.language.iso pt_BR pt_BR
dc.publisher Florianópolis, SC pt_BR
dc.rights Open Access
dc.subject Análise de Crédito pt_BR
dc.subject Aprendizado de Máquina pt_BR
dc.subject Seleção de Features pt_BR
dc.title Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View Description
fernanda_doria (1).pdf 1.510Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar