dc.contributor |
Universidade Federal de Santa Catarina |
|
dc.contributor.advisor |
Wagner, Glauber |
|
dc.contributor.author |
Maia, Guilherme Augusto |
|
dc.date.accessioned |
2020-10-21T21:17:44Z |
|
dc.date.available |
2020-10-21T21:17:44Z |
|
dc.date.issued |
2019 |
|
dc.identifier.other |
363977 |
|
dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/215541 |
|
dc.description |
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Programa de Pós-Graduação em Biotecnologia e Biociências, Florianópolis, 2019. |
|
dc.description.abstract |
O Trypanosoma rangeli é um protozoário que infecta triatomíneos e diversos mamíferos para realizar o seu ciclo biológico. O T. rangeli tornou-se um organismo de interesse científico devido a sua similaridade genômica e proteômica com Trypanosoma cruzi. Do genoma de T. rangeli foi observado que 66% dos genes codificam ?proteínas hipotéticas?, que são proteínas preditas por ferramentas de bioinformática, mas que não têm suas funções caracterizadas. O estudo destes dados moleculares, através de análises computacionais comparativas, pode esclarecer os mecanismos de virulência e infectividade de outras espécies de Trypanosoma. Este trabalho tem como objetivo caracterizar a possível função e expressão de proteínas hipotéticas em T. rangeli através de análises in silico com base em dados genômicos, transcriptômicos e proteômicos deste organismo. Foi feita a predição de sequências a partir de diferentes dados de sequenciamento e montagens do genoma de T. rangeli, utilizando-se os programas Glimmer e Augustus. As 10.506 sequências proteicas preditas não redundantes foram utilizadas para realizar uma busca por similaridade com outros genomas através do algoritmo do BLAST+, com dados disponíveis no TriTrypDB v.41, das quais 6.475 encontraram correspondência de anotação, 3.740 foram anotadas como hipotéticas, 133 como pseudogenes e 158 não encontraram nenhuma correspondência, formando assim um conjunto de dados de 3.898 proteínas hipotéticas. Destas, 1.149 continham descrições ou anotações funcionais considerando os resultados do InterProScan, HMMER e RPSblast+, sendo que 788 (20,42%) destas proteínas hipotéticas continham ao menos uma descrição. Para avaliar a possível expressão destas proteínas, foram realizadas análises de evidências de expressão utilizando dados disponíveis do transcriptoma e do proteoma de T. rangeli. Foram encontradas 3.690 (94,66%) sequências hipotéticas com pelo menos um transcrito e 1.452 (37,25%) com pelo menos dois peptídeos nas análises de espectrometria de massas. Considerando apenas sequências que apresentavam ambas evidências de expressão, 1.018 (26,12%) sequências hipotéticas são potencialmente expressas. Finalmente, utilizando os dados gerados neste pipeline, é possível reanotar 372 (9,54%) de todas as proteínas previamente descritas como hipotéticas, pois apresentam maior respaldo para uma anotação confiável. Em conclusão, este trabalho gerou uma abordagem sistemática e integrada que permite a reanotação de proteínas in silico e potencialmente aplicável a outros genomas que apresentem dados de expressão.<br> |
|
dc.description.abstract |
Abstract : Trypanosoma rangeli is a protozoan that infects triatomines and mammals to complete its biological life cycle. T. rangeli has become an organism of scientific interest due to its genomic and proteomic similarity to Trypanosoma cruzi. From its genome, it was observed that 66% of the genes were annotated as ?hypothetical proteins?, which are proteins predicted by bioinformatics? tools, although their function is unknown. The study of this molecular data, through comparative computational analysis, may help to elucidate the mechanisms of virulence and infectivity of other Trypanosomes. This study aimed to characterize the putative function and expression of hypothetical proteins of T. rangeli using an in silico approach based on genomic, transcriptomic and proteomic data. The gene prediction was performed by Glimmer and Augustus utilizing sequenced and assembled data from different versions of T. rangeli genome. 10,506 non redundant protein sequences were used as query in a similarity analysis with the BLAST+ algorithm, searching against data available on TriTrypDB v. 41, of which 6,475 sequences found a hit on the database, 3,740 were annotated as hypothetical, 133 as pseudogene and 158 did not find any corresponding match, therefore forming a dataset of 3,898 hypothetical proteins. 1,149 of those had available descriptions or functional annotations considering the results found by InterProScan, HMMER, and RPSblast+, from these 788 (20.42%) hypothetical proteins had at least one description. To evaluate the possible expression of these proteins, evidence of expression analysis was performed using available transcriptome and proteomic data from T. rangeli. 3,690 (64.66%) protein sequences had at least one transcript associated and 1,452 (37.25%) at least two different peptides originated from a previous mass spectrometry analysis. Considering only the sequences which presented both evidence, 1,018 (26.12%) hypothetical proteins could potentially be expressed. Finally, according to the results found here, it is possible to reannotate 372 (9.54%) sequences that were previously annotated as hypothetical, as these are the sequences that show greater evidence. In conclusion, this study developed an integrated systemic analysis that allows for protein reannotation in silico and could be applied to other organisms that have available expression data. |
en |
dc.format.extent |
79 p.| ils., gráfs., gráfs. |
|
dc.language.iso |
por |
|
dc.subject.classification |
Biotecnologia |
|
dc.subject.classification |
Trypanosoma rangeli |
|
dc.subject.classification |
Bioinformática |
|
dc.subject.classification |
Genoma |
|
dc.subject.classification |
Proteoma |
|
dc.subject.classification |
Proteínas |
|
dc.title |
Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli |
|
dc.type |
Dissertação (Mestrado) |
|