Title: | Churn prediction in enterprises with high customer turnover |
Author: | Beckhauser, William Jones |
Abstract: |
A maioria das pesquisas sobre modelos de aprendizado de máquina para predizer perda de clientes se concentra em setores como telecomunicações. No entanto, esse problema pode ser particularmente desafiador em setores com alta rotatividade de clientes (HCT, do inglês High Customer Turnover), tais como entrega de alimentos, comércio eletrônico e jogos. O presente estudo visa delinear HCT e determinar as abordagens mais eficazes para prever a perda de clientes em organizações com HCT. Para tanto, foi primeiramente realizada uma análise do estado da arte. Ela permitiu selecionar três conjuntos de dados representativos de diferentes setores com HCT para experimentos. Além disso, foram identificadas as abordagens mais promissoras na literatura. Com base nisso, neste trabalho, realizamos dois experimentos. Em ambos empregamos diversos modelos de aprendizado de máquina tradicionais (SVM, Decision Tree e Random Forest) e redes neurais (Multilayer Perceptron, CNN). Entretanto, o primeiro experimento usa dados convencionais de perfil e de transações dos clientes (e.g., faixa etária e de renda, quantidade de compras, despesas financeiras e produtos adquiridos), enquanto o segundo explora textos em que os clientes avaliam suas compras mais recentes. Esses últimos experimentos também usam modelos para a geração de embeddings de texto, tais como o Word2Vec, além de modelos de linguagem como BERT e RoBERTa. Todos os modelos foram submetidos a testes de treinamento, nos quais foram exploradas diferentes combinações de hiperparâmetros. A avaliação dos modelos foi realizada com métricas como acurácia, cobertura, precisão e F1-score. A metodologia aplicada é uma adaptação do processo de referência do CRISP-DM, para agilizar a seleção dos melhores modelos. Ela inclui segmentação RFM (Recência, Frequência e Valor Monetário) como parte da preparação dos dados, segmentando os clientes com base em suas compras, e classificando o nivel de lealdade com a empresa. Os resultados mostram que modelos de aprendizado de máquina, notadamente Random Forest e SVM, alcançam resultados superiores (F1-Score em torno de 93%) quando a segmentação RFM é empregada. Em um contexto alternativo que exclui segmentação RFM, os modelos não ultrapassam 75% de F1-Score. Nos experimentos usando somente textos de avaliações que clientes fizeram de suas compras como característica para classificação, considerando somente um subconjunto dos registros de compras com tais avaliações, o BERT alcançou F1-score de 91%. Esses resultados sugerem o potencial, ainda subexplorado, da aplicação de processamento de linguagem natural na previsão de perda de clientes. Abstract: Most research on machine learning models to predict customer churn focuses on sectors such as telecommunications. However, this problem can be particularly challenging in industries with high customer turnover (HCT), such as food delivery, e-commerce, and gaming. This study aims to outline HCT and determine the most effective approaches for predicting customer churn in organizations with HCT. To this end, a state-of-the-art analysis was conducted. It allowed for the selection of three representative datasets from different HCT sectors for experiments. Additionally, the most promising approaches from the literature were identified. Based on this, in this work, we conducted two experiments. In both, we employed various traditional machine learning models (SVM, Decision Tree, and Random Forest) and neural networks (Multilayer Perceptron, CNN). However, the first experiment uses conventional customer profile and transaction data (e.g., age and income range, number of purchases, financial expenses, and products purchased), while the second one exploits texts in which customers review their most recent purchases. These latter experiments also use models for generating text embeddings, such as Word2Vec, as well as language models like BERT and RoBERTa. All models were subjected to training tests, where different combinations of hyperparameters were explored. The models were evaluated using metrics such as accuracy, coverage, precision, and F1-score. The applied methodology is an adaptation of the CRISP-DM reference process, to speed up the selection of the best models. It includes RFM segmentation (Recency, Frequency, and Monetary Value) as part of data preparation, segmenting customers based on their purchases, and classifying their loyalty level to the company. The results show that machine learning models, notably the Random Forest and SVM, achieve superior results (around 93% F1 Score) when RFM segmentation is employed. In an alternative context that excludes RFM segmentation, the models do not surpass the F1-score threshold of 75%. In experiments using only texts of customer purchase reviews as a classification feature, considering only a subset of purchase records with those reviews, BERT achieved an F1-score of 91%. These results suggest the still unexploited potential of applying natural language processing in predicting customer churn. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/259671 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PGCC1263-D.pdf | 3.166Mb |
View/ |