Title: | Uma arquitetura de descoberta de conhecimento baseada na correlação e associação temporal de padroões textuais |
Author: | Sérgio, Marina Carradore |
Abstract: |
Atualmente, o volume de informação gerado aumenta em escala exponencial, sendo que grande parte desta informação encontra-se na forma textual. Através deste formato é possível extrair ativos de conhecimento, ou seja, regras, padrões, tendências, redes, capazes de auxiliar no processo de tomada de decisão dentro das organizações com o intuito de gerar vantagem competitiva. Em virtude da grande disponibilidade de documentos textuais, seja na web ou mesmo nas organizações, assim como, a falta de padronização dos mesmos, tal tarefa constitui-se em um desafio computacional. Neste sentido, é necessário o devido pré-processamento e adequação dos dados. Um meio de se extrair tais ativos de conhecimento é através do processo de Descoberta de Conhecimento em Textos. A partir disto, propõem-se neste trabalho uma arquitetura para descoberta de conhecimento em bases textuais que seja capaz de revelar relacionamentos diretos e indiretos entre padrões textuais (termos) e que tenha suporte da Computação Distribuída. A demonstração de viabilidade é realizada através de um protótipo desenvolvido com base na arquitetura proposta. Como principal resultado do trabalho menciona-se a apresentação da interconexão temporal entre termos através do conceito de associação indireta e posteriormente correlação (associação direta). Além disto, pode-se afirmar que, tanto as distribuições de frequência de um termo quanto os mapas de tópicos, ambos baseados na dimensão tempo, auxiliam no entendimento de determinado domínio do problema. Por fim, a aplicação do protótipo em um cenário permitiu demonstrar que a arquitetura proposta neste trabalho é capaz de atingir resultados consistentes e satisfatórios no que se refere ao entendimento de determinado domínio a partir bases textuais Currently the volume of information generated increases in exponential scale. Much of this information is in natural language. Through this format is possible to extract knowledge able to assist the decision making process within organizations in order to generate competitive advantage. Due to the wide availability of textual documents on the web or even in organizations and the lack of standards about document structures such task is a computational challenge. Thus, it is required a suitable data pre-processing. A way to extract such knowledge assets is through the Knowledge Discovery in Texts process. Take it into account we propose in this work an architecture supported by distributed computing for knowledge discovery in textual databases which be able to reveal direct and indirect relationships between textual patterns (terms). The demonstration of feasibility is carried out by a prototype based on the proposed architecture. The main result of this work refers to the demonstration of temporal interconnections among terms through the concepts of indirect association and subsequently correlation (direct association). Moreover, it can be stated that the frequency distributions of a term and topic maps, both based on the temporal vision, help in the understanding of a specific domain problem. Finally, the prototype applied in a scenario has demonstrated that the proposed architecture is able to achieve consistent and satisfactory results towards the understanding of a given domain. |
Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Curso de Tecnologias da Informação e Comunicação. |
URI: | https://repositorio.ufsc.br/handle/123456789/105488 |
Date: | 2013-07-20 |
Files | Size | Format | View |
---|---|---|---|
TCC-Marina-Final_Com_Ficha.pdf | 2.167Mb |
View/ |