Title: | Geração Automática de Features para Modelagem Preditiva - Predição de Empresas Brasileiras de Alto Crescimento |
Author: | Pelison, Luis Felipe |
Abstract: |
A Neoway Business Solutions, empresa brasileira focada em inteligência de negócios a partir de um grande volume de dados, coletados em mais de 3.000 fontes públicas, atua em um mercado Business to Business (B2B) para prospectar e entender o mercado ou prevenir perdas dos clientes. Nesse contexto, a área interna de Analytics é responsável por gerar inteligência em cima dos mais variados dados. O projeto desenvolvido, dentro da área de Analytics, visa gerar inteligência a partir de dados relacionados à natureza e localidade das empresas, a fim de predizer se o crescimento médio dos próximos três anos será superior a 17%, para qualquer empresa ativa do Brasil que possua 10 ou mais funcionários. Aliado à inteligência, o projeto tem como objetivo validar uma abordagem muito recente no mundo de aprendizado de máquina e ciência de dados: a geração automática de features. Com a geração automática de features, os modelos inteligentes podem ser rapidamente implementados, com uma redução de até 5x no tempo de desenvolvimento, comparado ao pipeline de ciência de dados padrão. Técnicas de geração automática de features foram estudadas e uma foi escolhida para ser utilizada. Base de dados relacionais foram utilizadas para a geração automática de features a partir da teoria chamada Deep Feature Synthesis. Com essas features, alguns modelos foram criados e comparados entre si. Por fim, o melhor modelo preditivo (com features automáticas) foi comparado com outro, gerado por um cientista de dados especialista no domínio, e atingiu resultados muito semelhantes. The Neoway Business Solutions is a brazilian company focused in business intelligence for big data. With more than 3.000 public data sources, the company operates in a Business-to- Business (B2B) marketplace to prospect and understand the customer’s market or prevent customer losses. At this scenario, the Neoway’s Analytics team is responsible for generating intelligence on the most varied data. The project developed aims to generate knowledge from data related to the firmographics, in order to predict wich brazilian company with 10 or more employees will be a High-Growth Firm. Also, the projects aims to validate a very recent approach in the Data Science world: the Automated Feature Generation. With this approach, smart models can be raplidly deployed, with up to a 5x reduction in development time compared to standard Data Science pipeline. Some techniques about Automated Feature Generation have been studied and one chosen to be used. Relational databases were used to generate the automated features from the Deep Feature Synthesis theory. With these new features, some models were created and compared to each other. Lastly, the best predictive model generated (with automated features) was compared to another, builded by a senior data scientist, and have gotten results very similar. |
Description: | TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de Controle e Automação. |
URI: | https://repositorio.ufsc.br/handle/123456789/200013 |
Date: | 2018 |
Files | Size | Format | View |
---|---|---|---|
PFC Luis Felipe Pelison_2018-2.pdf | 1.416Mb |
View/ |