Aplicações de mecânica estatística em econofísica e mineração de texto

DSpace Repository

A- A A+

Aplicações de mecânica estatística em econofísica e mineração de texto

Show full item record

Title: Aplicações de mecânica estatística em econofísica e mineração de texto
Author: Siciliani, Igor Dornelles Schoeller
Abstract: Esse trabalho tem como característica suas duas áreas de atuação distintas: Econofísica e Mineração de Textos. Na primeira, uma investigação sobre a distribuição da renda pessoal brasileira, utilizando dados da Pesquisa Nacional por Amostra de Domicílios (PNAD), uma pesquisa anual disponibilizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE), é cuidadosamente articulada. Ainda, a partir da base de dados da PNAD, também, confirmou-se a eficácia de um modelo semi empírico que concilia a lei de Pareto para a distribuição de renda das pessoas mais ricas e a distribuição de Boltzmann-Gibbs para o resto da população. Do mesmo modo, foram realizadas quatro medidas de desigualdade de renda: índice de Pareto, renda média e renda de corte (estas advindas do modelo) e o coeficiente de Gini. Essas são calculadas para a população geral, bem como para dois tipos de dicotomias populacionais: pretos/pardos/indígenas versus brancos/amarelos e, homens versus mulheres. Também é realizada uma análise das séries temporais desses índices para o período 2001-2014. Os resultados sugerem uma diminuição da desigualdade de renda brasileira no período selecionado. Outro resultado importante é que os subgrupos historicamente desfavorecidos (Mulheres e pretos / indígenas / pardos), a maioria da população, têm uma distribuição de renda mais igualitária. No entanto, esses grupos têm uma renda mensal menor que os demais e, essa estrutura social permaneceu praticamente inalterada no período. Em continuidade a este campo de estudo, desenvolveu-se e validou-se um novo modelo estocástico não-linear para analisar a variável 'riqueza'. Inspirado no mecanismo de integração e disparo, este modelo propõe a divisão dos agentes em duas classes distintas na rede. O modelo é fundamentado em princípios básicos, como a concentração de riqueza, a capacidade de gerar riqueza em um sistema não termodinâmico, interações mutuamente vantajosas e diferentes métodos de acumulação de riqueza. Tanto teoricamente quanto através de simulações, demonstrou-se que a riqueza relativa dos agentes alcança um estado de equilíbrio. Neste ponto de equilíbrio, é possível determinar as distribuições de probabilidade da riqueza. Especificamente, a distribuição de equilíbrio identificada para este modelo é uma combinação das distribuições Laplace e Pareto-1. Nessa mesma linha, utilizando este modelo teórico, foi possível calcular indicadores econômicos, como o índice de Pareto e a curva de Lorenz, para essa nova distribuição de riqueza. Por último, o modelo foi comparado com os dados do DINA (Distribuição Nacional de Renda) dos anos de 2009 e 2019, revelando uma boa concordância entre os resultados teóricos e os dados reais. Na segunda parte é apresentado a formulação matemática e resultados numéricos de um novo modelo de classificação de sentimentos em textos a partir da abordagem léxica. Além disso, através da análise de twitters são confrontados os resultados obtidos pelo modelo proposto, pelo método de aprendizagem supervisionada de Naive-Bayes e a própria classificação do ser humano. Os resultados desse primeiro tópico sugerem que o novo modelo desenvolvido possuí precisão superior ao método de Naive-Bayes, quando esses dois métodos são confrontados com a classificação realizada por humanos.Abstract: This work is characterized by its two distinct areas of focus: Econophysics and Text Mining. In the first area, an investigation into the distribution of personal income in Brazil, using data from the National Household Sample Survey (PNAD), an annual survey provided by the Brazilian Institute of Geography and Statistics (IBGE), is carefully articulated. Additionally, using the PNAD database, the effectiveness of a semi-empirical model that reconciles Pareto's law for the income distribution of the richest individuals with the Boltzmann-Gibbs distribution for the rest of the population was confirmed. Similarly, four measures of income inequality were carried out: Pareto index, average income, and cutoff income (these derived from the model), and the Gini coefficient. These are calculated for the general population, as well as for two types of population dichotomies: black/brown/indigenous versus white/yellow, and men versus women. An analysis of the time series of these indices for the period 2001-2014 was also conducted. The results suggest a decrease in Brazilian income inequality during the selected period. Another important result is that historically disadvantaged subgroups (women and black/indigenous/brown individuals), the majority of the population, have a more egalitarian income distribution. However, these groups have a lower monthly income than others, and this social structure remained practically unchanged during the period. Continuing in this field of study, a new non-linear stochastic model was developed and validated to analyze the 'wealth' variable. Inspired by the integrate-and-fire mechanism, this model proposes the division of agents into two distinct classes in the network. The model is based on basic principles such as wealth concentration, the ability to generate wealth in a non-thermodynamic system, mutually beneficial interactions, and different methods of wealth accumulation. Both theoretically and through simulations, it was shown that the relative wealth of agents reaches an equilibrium state. At this equilibrium point, it is possible to determine the probability distributions of wealth. Specifically, the equilibrium distribution identified for this model is a combination of Laplace and Pareto-1 distributions. Along the same lines, using this theoretical model, it was possible to calculate economic indicators, such as the Pareto index and the Lorenz curve, for this new wealth distribution. Finally, the model was compared with the National Income Distribution (DINA) data for the years 2009 and 2019, revealing a good agreement between the theoretical results and the actual data. In the second part, the mathematical formulation and numerical results of a new sentiment classification model in texts using the lexical approach are presented. Furthermore, through the analysis of tweets, the results obtained by the proposed model, the Naive Bayes supervised learning method, and human classification were compared. The results of this first topic suggest that the new model developed has superior accuracy to the Naive Bayes method when these two methods are compared with human classification.
Description: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Física, Florianópolis, 2024.
URI: https://repositorio.ufsc.br/handle/123456789/261226
Date: 2024


Files in this item

Files Size Format View
PFSC0453-T.pdf 2.403Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar