ESTUDOS PRELIMINARES DA APLICAÇÃO DAS TÉCNICAS DE BANCO DE DADO E MINERAÇÃO DE DADOS GENÔMICOS EM REPOSITÓRIOS DE DADOS BIOLÓGICOS PÚBLICOS
Aluno de Iniciação Científica: Jeovane Honório Alves (PIBIC/CNPq)
Curso: Tecnologia em Análise e Desenvolvimento de Sistemas
Orientador: Jeroniza Nunes Marchaukoski
Co-Orientador: Roberto Tadeu Raittz
Departamento: Escola Técnica da UFPR
Setor: Setor de Educação Profissional e Tecnológica
Palavras-chave: Banco de Dados Biológicos , Mineração de Dados , Genômica
Área de Conhecimento: 10303030 - BANCO DE DADOS
As proteínas são de grande importância para a vida. Elas exercem importantes funções (estruturais, hormonais, defensivas, entre outras) no organismo dos seres vivos, tendo grande papel na sustentação das células.O estudo de proteínas é de grande importância para conhecer e compreender a estrutura e funcionalidade dessas. A exploração de dados genômicos está intimamente ligada ao estudo das proteínas. As informações sobre proteínas como família, domínio, produto, taxonomia, entre outras, estão distribuídas em diferentes bases de dados. Um dos grandes problemas quando se estuda proteínas é a falta de integração das bases de dados dispersas, o que gera dificuldades na busca de informações necessárias para as pesquisas. Este trabalho tem por objetivo integrar as bases de dados NCBI (National Center Biotecnology Information), PFAM (Protein Family) e COG (Clusters of Orthologous Groups of proteins), visando aperfeiçoar a consulta e manipulação de dados de proteínas. Neste trabalho o código identificador de genes “GI” (GeneInfo identifiers) do NCBI é utilizado como referência principal para integrar os dados das bases de dados NCBI, PFAM e COG. O objetivo é possibilitar a manipulação desses dados diretamente do computador local (somente conectando a rede para atualizar os dados integrados). Inicialmente, dados como nome da proteína, sequência, quantidade de aminoácidos, organismo, taxonomia, domínio, família, clã e grupo ortólogo (COG) são integrados, porém outros dados (e outras bases) serão integrados futuramente. Uma nova base de dados usando o SGBD (Sistema Gerenciador de Banco de Dados) MySQL foi modelada e construída para abrigar os dados integrados. O software MATLAB é utilizado nesse projeto como interface, através da qual é possível realizar consultas e manipulações das informações de proteínas da base de dados integrada armazenada no SGBD MySQL. A comunicação entre o SGBD MySQL e o MATLAB é realizada pelo plugin MySQL Connector/J. O sistema integrador de dados resultante deste trabalho permite atualmente interagir com as informações de proteínas das bases de dados do NCBI e PFAM diretamente no MATLAB, através da integração do “GI” do NCBI e do número de acesso da proteína do PFAM.