Title: | Descoberta de conhecimento em peças de inquérito policial relatado |
Author: | Silva, Marcio Ponciano da |
Abstract: |
Esta pesquisa utiliza técnicas de mineração de textos aplicadas em documentos textuais da investigação policial brasileira para a descoberta de conhecimento não trivial, que importe em melhoria da investigação policial. O processo de descoberta de conhecimento é empregado para encontrar informações ou padrões de informação, com técnicas, análise e extração de dados. As técnicas são empregadas em uma amostra de documentos textuais do inquérito policial, sendo este um procedimento administrativo utilizado nas investigações realizadas pelas polícias brasileiras. As técnicas são empregadas com a finalidade de descobrir padrões não observáveis quando analisados por manipulação humana de grande volume de documentos. É aplicado um processo de anonimização, com vistas a cumprir a Lei Geral de Proteção de Dados. A pesquisa busca estudos relevantes a respeito do tema proposto, elaborando uma revisão de literatura. No estudo são abordadas as fases do processo de descoberta de conhecimento e analisa a conceituação de recuperação de informação. O uso dos métodos e técnicas utilizados pela área de Recuperação de Informação para a descoberta de conhecimento em base de dados textual é apresentado como possível ferramenta de promover essa melhoria. A pesquisa analisa técnicas como case folding, tokenização, remoção de stopwords, stemming, bag of words, TF-IDF, n-grams, word cloud e clusterização com o método k-means para agrupar conjunto de dados dos n-grams extraídos. O estudo utiliza o Elbow Method para determinar o número de clusters e o indicador Silhouette para análise da distância de cada cluster. Este estudo aborda o conceito de inquérito policial e contextualiza sua função na investigação criminal brasileira. Dados os embasamentos teóricos da descoberta de conhecimento em base de dados textual e do inquérito policial, o estudo apresenta como o inquérito policial pode tirar proveito da mineração de textos como ferramenta de melhoria da investigação policial. É apresentado um breve relato do sistema criminal adotado no Brasil, com suas principais características. É analisado o volume de peças em inquéritos policiais e também as características desses documentos textuais. O estudo adota como procedimentos metodológicos a caracterização da pesquisa, as suas etapas e a caracterização do universo e amostra, e ainda os critérios de exclusão de estudos da revisão de literatura e seleção de técnicas. São apresentados dois experimentos que permitem comparar os resultados. É verificado no resultado que a ponderação de termos do TF-IDF valoriza a identificação de entidades, tanto nomes como conexões. O resultado dessa técnica também permite descobrir termos mais representativos dos textos. O resultado do agrupamento com clusterização k-means permite analisar os termos mais representativos em cada cluster, utilizando-se dos trigramas extraídos do TF-IDF, possibilitando identificar categorias do agrupamento. Concluiu-se que a partir do conjunto de técnicas utilizadas é possível descobrir os termos mais relevantes dos documentos, bem como os termos mais representativos. Também é possível descobrir categorias de temas de atuação da área policial. Concluiu-se com o uso da técnica de TF-IDF em conjunto com n-grams constitui uma ferramenta para identificar de nomes de entidades e suas conexões. Abstract: This research uses text mining techniques applied to textual documents of Brazilian police investigation to discover non-trivial knowledge, which will improve police investigation. The knowledge discovery process is used to find information or information patterns, with techniques, analysis and data extraction. The techniques are used in a sample of textual documents from the police investigation, which is an administrative procedure used in the investigations carried out by the Brazilian police. This research analyzes these textual documents to propose the use of text mining techniques to extract non-trivial knowledge, which will improve police investigation. The techniques are employed in order to discover unobservable patterns when analyzed by human manipulation of large volumes of documents. An anonymization process is applied, in order to comply with the General Data Protection Law. The research seeks relevant studies about the proposed theme, elaborating a literature review. The study addresses the phases of the knowledge discovery process and analyzes the conceptualization of information retrieval. The use of methods and techniques used by the Information Retrieval area to discover knowledge in a textual database is presented as a possible tool to promote this improvement. The research analyzes techniques such as case folding, tokenization, stopwords removal, stemming, bag of words, TF-IDF, n-grams, word cloud and clustering with the k-means method to group data sets from extracted n-grams. The study uses the Elbow Method to determine the number of clusters and the Silhouette indicator to analyze the distance of each cluster. This study addresses the concept of police inquiry and contextualizes its role in Brazilian criminal investigation. Given the theoretical foundations of knowledge discovery in a textual database and police inquiry, the study presents how the police inquiry can take advantage of text mining as a tool for improving police investigation. A brief account of the criminal system adopted in Brazil is presented, with its main characteristics. The volume of pieces in police investigations is analyzed, as well as the characteristics of these textual documents. The study adopts as methodological procedures the characterization of the research, its stages and the characterization of the universe and sample, as well as the exclusion criteria of studies from the literature review and selection of techniques. Two experiments are presented that allow comparing the results. It is verified in the result that the weighting of TF-IDF terms values the identification of entities, both names and connections. The result of this technique also makes it possible to discover terms that are more representative of the texts. The result of grouping with k-means clustering allows the analysis of the most representative terms in each cluster, using the trigrams extracted from the TF-IDF, making it possible to identify categories in the grouping. It was concluded that from the set of techniques used it is possible to discover the most relevant terms of the documents, as well as the most representative terms. It is also possible to discover categories of action themes in the police area. It concluded that the use of the TF-IDF technique in conjunction with n-grams is a tool for identifying entity names and their connections. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2021. |
URI: | https://repositorio.ufsc.br/handle/123456789/226978 |
Date: | 2021 |
Files | Size | Format | View |
---|---|---|---|
PCIN0255-D.pdf | 4.393Mb |
View/ |