Title: | Análise comparativa de modelos machine learning para a predição de cor de olhos, cabelo e pele em uma amostra da população brasileira |
Author: | Oliveira, Bruna Damasco de |
Abstract: |
A predição fenotípica apresenta-se como uma alternativa para investigações forenses onde a tradicional obtenção de perfis de marcadores do tipo microssatélite não é possível. Tal técnica consiste na análise polimorfismos de nucleotídeo único a fim de predizer as características externamente visíveis (EVC) de um indivíduo, os quais podem ser divididos em traços relacionados ou não à pigmentação de estruturas. Ao longo das duas últimas décadas foram propostos sistemas de predição que correlacionam um conjunto específico de marcadores moleculares com a cor de olhos, cabelos e pele; como por exemplo o HIrisPlex-S (baseado em uma equação de regressão logística multinomial) e o Snipper (construído por meio de classificadores Bayesianos). Essas metodologias, contudo, foram formuladas em estudos com populações europeias e geraram resultados conflitantes quando testadas em países com histórico de ampla miscigenação, tal como o Brasil. Levando esse fato em consideração, e utilizando a abordagem de Machine Learning (ML) para a resolução de problemas de classificação e clustering por meio de modelos matemáticos, o objetivo deste trabalho foi calibrar e aplicar modelos para a predição de cor de olhos, cabelo e pele especificamente em um recorte da população brasileira (composta por 611 indivíduos e 49 marcadores) cedido pelo Laboratório de Imuno-Hematologia e Hematologia Forense da Universidade de São Paulo. O pré-processamento dos dados foi a etapa inicial das análises. Os genótipos foram convertidos em valores numéricos de acordo com os alelos da variante de cada marcador. Indivíduos que continham ao menos uma observação de genótipo NA foram eliminados, assim como SNPs com menos de 1% de variação dentro da amostra. Em seguida, a relação dos marcadores com os fenótipos foi aferida estatisticamente, de forma a prover três grupos de marcadores. Finalmente, os classificadores foram calibrados e aplicados em cada um dos três grupos de acordo com cinco tipos de modelos matemáticos. Seis variantes foram identificadas como não-polimórficas na amostra. Dois marcadores apresentaram resultados inexpressivos nos filtros estatísticos aplicados. Todas as variantes que passaram pelas etapas de triagem estão associadas a pelo menos um dos EVCs analisados. O efeito de variantes do gene HERC2 na cor de olhos, amplamente discutido na literatura, foi corroborado neste estudo. Observou-se também que a definição do tom de pele de um indivíduo parece estar mais diluída entre os vários marcadores estudados. Marcadores dos genes SLC24A5 e SLC45A2 apresentaram bons resultados para a associação com todos os fenótipos. Houve pouca variação na acurácia e sensibilidade dos modelos, independente do conjunto de marcadores e do algoritmo aplicado. Em suma, pode-se afirmar que a metodologia empregada está bem adaptada à amostra utilizada. Salienta-se também a necessidade de que mais estudos sejam realizados na área, principalmente em regiões de alta miscigenação, a fim de estabelecer um sistema de predição que contemple as particularidades genéticas de diferentes populações. Abstract: Phenotype prediction has emerged as an alternative in forensic investigations where the traditional microsatellite profiling is not possible. This technique consists in the analysis of single nucleotide polymorphisms (SNP) in order to predict an individual?s externally visible characteristics (EVC), which can be divided into pigmentation traits and non-pigmentation traits. Over the course of the past two decades prediction systems correlating an specific set of molecular markers and eye, hair and skin color have been proposed; such as the HIrisPlex-S model (based on multinomial logistic regression) and Snipper (built on Bayesian classifiers). These methodologies, however, were established in studies with European populations and have yielded conflicting results when tested in countries with a history of high admixture, like Brazil. Considering that, and with the aid of Machine Learning approaches aimed for the resolution of classification and clustering problems, the goal of this study was to calibrate and apply models for the prediction of eye, hair and skin color in a sample of the brazilian population (composed of 611 individuals and 49 markers) provided by the Laboratório de Imuno-Hematologia e Hematologia Forense of the University of São Paulo. Data preprocessing was the first step of the analysis. Genotypes were converted into numeric values considering the variant allele of each marker. Individuals that had at least one missing observation were eliminated, as well as SNPs with less than 1% of variation in the sample. Next, the association between markers and phenotypes was statistically determined with the intention of separating three groups of makers. Lastly, the classifiers were calibrated and applied in each of the three groups under different mathematical models. Six SNPs were identified as non-polymorphic in the sample. Two markers have yielded poor results in the statistical filters applied. All of the variants that have passed the triage stage are associated with at least one of the EVCs analyzed. The effect of SNPs of the HERC2 gene in eye color, amply discussed in the literature, have been corroborated in this study. It was also observed that the definition of skin tone seems to be diluted in the many studied variants. Markers from the genes SLC24A5 and SLC45A2 have been associated with all the phenotypes. There was little variation in accuracy and sensibility of the models, regardless of the marker subset or the algorithm applied. In conclusion, the employed methodology is well adapted to the analyzed sample. It is also worth mentioning the necessity of further studies in the area, especially in regions of high admixture, with the intent of establishing a prediction system that contemplates the genetic particularities of different populations. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Biologia Celular e do Desenvolvimento, Florianópolis, 2022. |
URI: | https://repositorio.ufsc.br/handle/123456789/247448 |
Date: | 2022 |
Files | Size | Format | View |
---|---|---|---|
PBCD0146-D.pdf | 2.525Mb |
View/ |