I Congresso Sul Brasileiro de Biomedicina

Dados do Trabalho


Título

REPRESENTAÇAO VETORIAL DE PROTEOMAS BACTERIANOS: APLICAÇOES DO METODO SWEEP

Fundamentação/Introdução

Na área da Bioinformática e Inteligência Artificial, publicações científicas relacionadas a abordagens livres de alinhamento para análises e comparações de seqüências biológicas estão ganhando cada vez mais notoriedade. Métodos livres de alinhamento baseados na representação de produtos gênicos em espaços vetoriais auxiliam no estudo de genes e proteínas, além de proporcionar agilidade nas análises. O método SWeeP (Spaced Words Projection) foi desenvolvido com base no conceito de palavras espaçadas, tendo propósito geral em mineração de dados biológicos.

Objetivos

A fim de representar vetorialmente seqüências biológicas de maneira eficiente e ágil, neste trabalho, pretende-se mostrar as aplicações do método SWeeP. Para isso, foi realizada reconstrução filogenética de um conjunto de dados de proteomas bacterianos contendo 10.324 organismos, a partir das representações vetoriais para cada proteoma geradas pelo SWeeP.

Delineamento e Métodos

Os proteomas bacterianos foram obtidos do banco de dados biológicos do NCBI. O método SWeeP gera matrizes binárias resultantes de combinações de aminoácidos de cada sequência do proteoma a partir de uma janela deslizante de 5 mers com 1 espaçamento, sendo as combinações ralizadas em dipéptidos, que ao final da varredura das seqüências do proteoma, resulta em uma matriz de tamanho 400x400. Essas matrizes são obtidas para cada sequencia de proteoma e são transformadas em vetores, os quais são concatenados por colunas. A partir dos vetores concatenados, um algoritmo baseado no método Ward (agrupamento) é usado para gerar a reconstrução filogenética.

Resultados

O método SWeeP permitiu a reconstrução filogenética com rapidez e sensibilidade, conseguindo resolver os ramos dos 10.324 organismos com eficiência. A árvore filogenética foi analisada e comparada com outras árvores parciais disponíveis na literatura, apresentando distribuição taxonômica correta.

Conclusões/Considerações Finais

Trata-se de uma abordagem inovadora que tem o potencial em mineração de dados massivos, agilizando análises comparativas. Além disso, este método possibilita a inferência de relações de parentesco entre organismos. No momento, não existem na literatura reconstruções filogenéticas que utilizem maior número de protomas bacterianos que utilizamos neste estudo. Isto demonstra que o método SWeeP contempla características importantes para lidar eficientemente com grandes volumes de dados, sem perda de informações.

Referências

Vinga, S. & Almeida, J. Alignment-free sequence comparison - A review. Bioinformatics 19, 513–523 (2003).
Zielezinski, A., Vinga, S., Almeida, J. & Karlowski, W. M. Alignment-free sequence comparison: Benefits, applications, and tools. Genome Biol. 18, 1–17 (2017).
Haubold, B. Alignment-free phylogenetics and population genetics. Brief. Bioinform. 15, 407–418 (2014).
Boden, M. et al. Alignment-free sequence comparison with spaced k-mers. OASIcs-OpenAccess Ser. Informatics 34, 24–34 (2013).
Leimeister, C. A., Boden, M., Horwege, S., Lindner, S. & Morgenstern, B. Fast alignment-free sequence comparison using spaced-word frequencies. Bioinformatics 30, 1991–1999 (2014).
Horwege, S. et al. Spaced words and kmacs: Fast alignment-free sequence comparison based on inexact word matches. Nucleic Acids Res. 42, 7–11 (2014).
Asgari, E. & Mofrad, M. R. K. Continuous distributed representation of biological sequences for deep proteomics and genomics. PLoS One 10, 1–15 (2015).
Ward, J. H. Hierarchical grouping to optimize an objective function. J. Am. Stat. Assoc. 58, 236–244 (1963).
Pierri, C.R. Representações vetoriais de proteomas: Um estudo de caso com sequências mitocondriais. (Dissertação de mestrado) Programa de Pós-graduação em Bioinformática. Universidade Federal do Paraná (2017).

Palavras-chave

Bioinformática
Inteligência artificial
Mineração de dados

Área

Tema livre

Instituições

Universidade Federal do Paraná - Paraná - Brasil

Autores

Camilla Reginatto De Pierri, Antonio Camilo da Silva Filho, Letícia Graziela Costa Santos de Mattos, Bruno Thiago de Lima Nichio, Mariane Gonçalves Kulik, Fabio Oliveira Pedrosa, Roberto Tadeu Raittz