Title: | CryptoBot: Processamento de Linguagem Natural para detecção de sinais de trading automatizados |
Author: | Araújo, Rafael Calixto Ferreira de |
Abstract: |
A constante criação de novas tecnologias permite explorar conceitos antes ainda restritos ao campo teórico. As redes sociais são plataformas tecnológicas que permitem a geração de um volume de dados diário nunca antes visto, possibilitando captar a percepção do público geral sobre diversos temas, dentre eles ativos financeiros. Contudo, a captação da percepção coletiva não permite diretamente que seja realizada uma predição da volatilidade, havendo a necessidade de criar uma estrutura experimental que permita a transformação da percepção captada para uma métrica aplicável ao mercado financeiro. Neste trabalho foram utilizadas técnicas computacionais envolvendo Inteligência Artificial e Processamento de Linguagem Natural para criar um sistema capaz de gerar predições sobre o mercado de criptomoedas a partir da captação e processamento de dados da rede social Twitter. Para realizar este processo treinou-se um modelo de Machine Learning utilizando técnicas de Deep Learning e, como amostra para o treinamento do modelo, utilizou-se o dataset GoEmotions que possibilita o treinamento de modelos capazes de identificar 27 categorias de sentimentos, além do neutro. Contudo, a criação de um pipeline para o processo de extração e processamento dos dados também se fez necessário, sendo desenvolvido um algoritmo para execução desta atividade onde os dados foram transformados e estruturados para que as predições pudessem ser geradas. Com os dados captados da rede social e agora processados pelo pipeline, é realizada a identificação dos sentimentos presentes nos textos relacionados a cada criptomoeda, possibilitando que um score seja gerado para a predição do valor do criptoativo no mercado a partir da percepção extraída das redes sociais. Para a geração deste score foi desenvolvido um cálculo experimental onde o sentimento extraído é correspondido a um valor tabelar e calculado juntamente com outros valores obtidos pelos metadados dos textos extraídos da rede social. A análise dos resultados obtidos foi realizada por meio da aplicação das principais métricas de avaliação de performances preditivas, como a acurácia,recall, precisão ef-1 score. Após comparar as predições geradas com as movimentações dos criptoativos no mercado, foi constatado que o sistema apresentou valores para as métricas aplicadas acima de 55% para todas as criptomoedas analisadas, tendo a criptomoeda Ethereum apresentado a maior capacidade preditiva. Além disso, também foram analisadas diferentes janelas de tempo para investigar os intervalos que possuem maior capacidade preditiva, identificando os intervalos de 12 e 24 horas como os com as melhores performances. Abstract: The constant creation of new technologies allows us to explore concepts yet restricted to the theoric field. Social Medias are technological platforms that allow generating a volume of data never seen before, it turns possible to capture the general audience about several themes, including financial assets. However, the capture of the collective perception doesn't allow direct to forecast the volatility, being necessary to build an experimental structure to transform the perception captured into a metric that could be applied in the financial market. This work applied computational techniques with Artificial Intelligence and Natural Language Processing to create a system capable of generating forecasts over the crypto market from the capture and processing of data from the Social Media Twitter. To execute this process, a Machine Learning model was trained using techniques of Deep Learning and, as a sample to processing the training of the model, was used the dataset GoEmotions that executes the training process of models capable of identifying 27 categories of sentiment, besides neutral. However, building a pipeline to execute the extraction and processing of the data was necessary, thus was developed an algorithm to execute this activity where the data was transformed and structured to allow the forecasts to be generated. With the data captured from the social network and now processed by the pipeline, is executed the identification of the sentiments in the texts about each cryptocurrency, allowing generating a score to forecast the value of the cryptoasset in the market from the perception extracted from the Social Media. To generate this score has been developed an experimental formula where the extracted sentiment is corresponded to a table value and is computed in a formula with other values obtained from the metadata of the text extracted from the social media. The analysis of the results was done with the application of main metrics to evaluate forecast performances, such as accuracy, recall, precision, and f-1 score. After comparing the generated forecasts with the movements in the crypto market, it was found that the system presented values for the metrics applied above 55% for all the analyzed cryptocurrencies, being the cryptocurrency Ethereum presented the biggest forecast capacity. Besides that, were analyzed different time windows to investigate the intervals that have the bigger forecast capacity, identifying the intervals of 12 and 24 hours as the ones with better performances. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023. |
URI: | https://repositorio.ufsc.br/handle/123456789/247702 |
Date: | 2023 |
Files | Size | Format | View |
---|---|---|---|
PGCC1236-D.pdf | 3.998Mb |
View/ |