MINERAÇÃO DE DADOS EM BANCOS DE DADOS DE GENOMAS DE PROCARIOTOS
Aluno de Iniciação Científica: Bruna de Miranda da Silva (PIBIC/CNPq)
Curso: Tecnologia em Análise e Desenvolvimento de Sistemas
Orientador: Roberto Tadeu Raittz
Departamento: Escola Técnica da UFPR
Setor: Setor de Educação Profissional e Tecnológica
Palavras-chave: Bioinformática , Mineração de Dados , Genômica
Área de Conhecimento: 10300007 - CIÊNCIA DA COMPUTAÇÃO
No projeto desenvolveu-se a ferramenta para anotação automática de genomas chamada SILA (nome). A anotação obtida é significativamente mais rápida que outras similares, porém não atentava para a identificação dos inícios das regiões codificadoras das sequencias, tomando sempre a maior região possível para cada ORF (open reading frame) iniciada por um códon ATG. As ferramentas propostas para a correção de início de sequencias encontradas na literatura são aplicadas na fase de identificação de ORFs e estão sujeitas a falhas. Desenvolveu-se uma função de correção a posteriori dos inicio do códon baseada no alinhamento local de acordo com o melhor hit (comparação) apontado pela ferramenta SILA (utilizando o banco de dados NR do NCBI GenBank). Buscou-se por alternativas para a seleção do códon de início com a melhor relação entre escore e a cobertura do alinhamento da sequencia com a sequência de referencia; a posição é então assumida como o provável códon de inicio em uma estratégia de poda. A técnica completa é aplicada apenas às sequencias cujos escores relativos são superiores a 0.3. As sequencias em que os escores relativos apresentam-se abaixo de 0.3 não são alteradas por não serem consideradas suficientemente análogas às sequencias de referência. A solução proposta foi desenvolvida no software Matlab ® com a sua respectiva toolbox de bioinformática. A biblioteca de funções de bioinformática desenvolvida no laboratório de Bioinformática do SEPT/UFPR também foi utilizada. Os testes iniciais do método foram realizados na pré-anotação de uma bactéria do gênero Herbaspirillum. Na anotação 5682 sequencias foram analisadas sendo que destas 4442 sequencias apresentaram escore relativo à referência acima de 0.3 e 1023 foram corrigidas. Nas demais foi mantido a indicação da SILA uma vez que apresentavam de antemão o códon de inicio correto. Foi realizada uma verificação por amostragem dos resultados. Todos os casos analisados mostraram estar corretos, excetuando-se aqueles onde foram encontrados genes fragmentados na montagem. A função desenvolvida corrigiu com êxito todos os códons de inicio analisados manualmente e pode substituir parte da análise manual nas anotações de genomas. A solução foi integrada à SILA e agora faz parte do anotador. Os resultados obtidos apontam para novas possibilidades de identificação de falhas de montagem e identificação de inserções ou deleções de bases em genomas.