Abstract:
|
Na era do conhecimento, obter conhecimento de dados das mais variadas fontes pode representar o diferencial que um prestador de serviços ou pesquisador precisa para se destacar ou dar continuidade em suas pesquisas. Um importante procedimento para mineração de dados é a clusterização, que por sua vez necessita de funções de medida para que possa ser executada. Neste trabalho, avaliou-se a influência que a escolha de uma medida de distância, similaridade ou dissimilaridade tem sobre o resultado da clusterização obtida através do método k-means. As funções de medida testadas foram a distância euclidiana ao quadrado, a distância Manhattan, a dissimilaridade pelo cosseno e a dissimilaridade por correlação e concluiu-se que diferentes conjuntos de dados, em suas particularidades, se adequam melhor a diferentes medidas de distância quando clusterizados pelo método k-means. |