Reportagens






 
Rede de pesquisa e desenvolvimento em bioinformática do centro-oeste

Georgios Pappas Jr.


Recentemente, muito tem se ouvido falar em projetos genoma. Para os leigos, basta dizer que o objetivo de tal empreitada é o conhecimento total ou parcial da seqüência de DNA do organismo em questão [1]. Como volumes de uma enciclopédia, o genoma guarda em posições específicas, denominadas genes, as informações que orientam todos os aspectos da síntese de proteínas que, em última instância, são as máquinas moleculares que controlam a fisiologia das células.

Em termos práticos, o processo experimental para se obter essas informações é realizado por máquinas chamadas de seqüenciadores automáticos de DNA. Entretanto, limitações técnicas impedem que se seqüencie regiões maiores que 1000 bases por vez. Desta forma, para viabilizar o seqüenciamento completo do genoma, deve-se, primeiramente, tratar o DNA das células de forma a criar inúmeros fragmentos, os quais devem ser individualmente seqüenciados e, posteriormente, montados com auxílio de computadores como verdadeiras peças de um quebra-cabeças.

Desta forma, para acessar a enciclopédia da vida teríamos primeiro que rasgar todas as páginas, ler os pequenos pedaços e, finalmente, tentar reconstituir o texto a partir de mensagens cifradas. Em tempo, o genoma humano é composto por aproximadamente 3,3 bilhões de letras, o bastante para preencher 100 volumes de uma enciclopédia com 1000 páginas cada! Mas isto não é tudo: apesar de conhecermos as letras do alfabeto, não temos domínio completo sobre o significado das palavras.

Neste cenário, quase proibitivamente complexo, se encontravam os biólogos, que, justamente nesse ambiente adverso, estabeleceram uma das parcerias mais produtivas no contexto científico mundial: a bioinfomática. De forma simplificada, a biologia forneceria os problemas e a ciência da computação, as ferramentas para solucioná-los. Felizmente, esta união sinérgica vai além e provê novas vertentes de pesquisa para ambas as ciências.

Por estar ainda nos seus primeiros passos, a bioinformática encontra-se em um processo de franco crescimento e desenvolvimento contínuo de novos algoritmos que visam, em termos gerais, entender melhor os dados provenientes dos projetos genoma. O objetivo principal seria a descoberta de padrões nas novas seqüências de forma a se inferir suas prováveis funções.

Qual seria a função celular desta seqüência de DNA? Esta é a pergunta imediata que surge quando se decifra os pares de bases de um fragmento genômico, e pode ser respondida, de forma relativamente rápida e confiável, através da utilização de programas de computador.

Dispondo de tais ferramentas atingiu-se um patamar onde os experimentos passam a ser realizados primeiramente in silico (no computador) para depois serem confirmados in vivo ou in vitro. Diante desta mudança de paradigma da pesquisa biológica, verifica-se que o acúmulo em massa de dados genômicos só se justifica caso seja possível interpretá-los consistentemente.

Um grande investimento econômico vem sendo destinado para os projetos genoma ([2],[3]). Avanços na área de biologia molecular e dos equipamentos disponíveis para pesquisa nesta área tem permitido o seqüenciamento de um grande número de genomas de espécies animal, vegetal e microbiana. De fato, observa-se um movimento mundial de seqüenciamento de genomas. Atualmente (2003), dispõe-se de centenas de genomas completos [4]. Definitivamente, o grande marco para a genômica foi a publicação do genoma humano ([5],[6],[7]), em 2001, que abre um grande leque para o entendimento de diversas doenças e da própria fisiologia do ser humano.

O Brasil ocupa uma posição de destaque no cenário mundial, principalmente após a publicação, em 2000, do genoma da bactéria Xylella fastidiosa [8], causadora da praga do amarelinho em citrus. Este trabalho, além de um marco para a ciência brasileira, teve, provavelmente como sua maior contribuição, o estabelecimento definitivo da bioinformática no nosso país mediante o trabalho pioneiro dos doutores. João Meidanis e João Setubal da Unicamp.

A partir de então, uma série de projetos genoma foi deflagrada no Brasil com o apoio do CNPq como o projeto genoma nacional [9] e projetos genoma regionais visando disseminar a genômica entre as regiões brasileiras. Em particular, tem se verificado o grande crescimento científico na área genômica no centro-oeste do Brasil. Instituições da região coordenam e participam de diversos projetos genoma de alcance nacional ou regional, tais como os genomas do eucalipto (genolyptus, [10]), café, banana (promusa) e do fungo Paracoccidioides brasiliensis [11].

Uma premissa básica para a própria concepção de qualquer projeto genoma é a necessidade do estabelecimento de uma infra-estrutura de bioinformática capaz de gerir e analisar os dados gerados. Tendo consciência da relativa escassez de recursos humanos nesta nova área da biologia, três instituições da região centro-oeste, a Universidade Católica de Brasília, a Universidade de Brasília e a Embrapa Recursos Genéticos e biotecnologia, resolveram unir esforços e consolidar a proposta de criação de uma rede de bioinformática com a finalidade de otimizar a dinâmica dos projetos genoma na região e abrir horizontes para os novos direcionamentos da pesquisa biológica. No final do ano de 2001, por ocasião do primeiro edital do CNPq para projetos em bioinformática, materializou-se a Rede de Pesquisa em Bioinformática do Centro-Oeste, o Biofoco [12].

O objetivo geral do Biofoco é criar uma rede de pesquisa e desenvolvimento em bioinformática integrando instituições líderes em pesquisa e ensino, capaz de oferecer apoio aos grupos e redes de pesquisa genômica e proteômica oferecendo conhecimentos, ferramentas e sistemas avançados associados a iniciativas de capacitação de técnicos e pesquisadores. Além disso, há o intuito de se constituir um fórum virtual para intercâmbio de pesquisadores em bioinformática.

Todos os projetos genoma têm necessidades básicas comuns, como criar uma infra-estrutura para receber, processar e armazenar os dados de seqüenciamento. A solução para tanto foi o desenvolvimento conjunto de um software que lide com todos esses aspectos operacionais. Este programa utiliza técnicas avançadas de programação para criar um ambiente não muito diferente de um sistema do tipo home banking, oferecendo funcionalidades como segurança, transações múltiplas e uma rica interface gráfica.

Vale a pena ressaltar que todos os componentes nos quais o software se baseia são gratuitos, do sistema operacional (Linux) e linguagens de programação (Java, PERL) até o sistema de bancos de dados (Postgresql). Este aspecto econômico também é fundamental pois fornece uma independência tecnológica sem contudo afetar a sua eficiência e confiabilidade, além de ser mais realista com relação à situação brasileira. Outra estratégia seguida pelo Biofoco é a adoção da tecnologia de computação em grid [13], que consiste em compartilhar os recursos computacionais de diversas máquinas distribuídas entre as instituições de forma a executar aplicações em larga escala. Com isso, as instituições conseguem realizar um volume de análises maior que se operassem individualmente além diminuir a ociosidade global das máquinas. Assim, grande parte da plataforma será compartilhada, gerando economia considerável em função da racionalização dos investimentos.

A contribuição da bioinformática pode ser categorizada em duas vertentes principais: a prestação de serviços e o desenvolvimento de novas abordagens teóricas. No primeiro caso, as atribuições concentram-se no desenvolvimento de plataformas capazes de administrar o recebimento, manipulação, análise e distribuição de dados de projetos genoma e proteoma. O segundo caso caracteriza-se como uma área de pesquisa onde buscam-se desenvolver novos algoritmos visando gerar programas que auxiliem a mineração de dados.

A rede Biofoco visa contemplar ambas as vertentes por ser claro que estas são estritamente relacionadas e complementares. Serviços de bioinformática são continuamente criados para dar suporte aos projetos genoma em andamento e novos algoritmos deverão ser desenvolvidos para responder a perguntas que surgem em projetos locais enriquecendo o leque de serviços oferecidos pela rede.

Por outro lado, pode-se ressaltar que a grande vantagem da rede é a possibilidade de contar com uma vasta gama de especialistas em áreas específicas da computação e biologia, o que acaba por criar um ambiente de complementação técnica que enriquece a concepção, discussão e execução das tarefas.

Em paralelo, projetos proteoma começaram a ser desenvolvidos. Proteoma é o conjunto de todas as proteínas que intervêm nos processos biológicos de uma espécie, sendo que o principal objetivo desses projetos visa determinar a composição, estrutura, e funções das proteínas, ou seja, conhecer a função dos genes anteriormente descritos nos projetos genoma. No segundo grande objetivo do Biofoco espera-se desenvolver uma plataforma integrada para a identificação e anotação funcional de proteínas.


Tela do software para gerenciamento e análise de dados de projetos
genoma desenvolvido pelo BIOFOCO.

Em junho de 2003 realizou-se o primeiro workshop do Bofoco, em Brasília, e neste encontro deu-se início ao processo de expansão da rede com o ingresso da Universidade Federal de Goiás (UFG) e Mato Grosso do Sul (UFMS). Além disso, pesquisadores da Universidade Federal do Rio Grande do Sul (UFRGS) e de Alagoas (Ufal) também se uniram à rede. Basicamente, os membros buscaram identificar problemas passíveis de serem solucionados em conjunto. A principal vantagem de se possuir uma rede de pesquisa como esta é a de unir pesquisadores ao redor de temáticas comuns e evitar a sobreposição de tarefas possibilitando assim uma divisão eficiente de trabalho. Isto sumariza a essência do Bofoco: BIOinFOrmática COoperativa.

Por fim, não seria exagero afirmar que a bioinformática é uma das chaves para o sucesso da análise de dados de projetos genômicos. O fortalecimento da pesquisa nesta área é estratégico para fornecer o suporte necessário às áreas experimentais e impulsionar significativamente as descobertas científicas. Em função deste quadro, a análise computacional dos dados gerados ou existentes torna-se um exercício de suma importância para viabilizar a extração das informações pertinentes e realmente poder concretizar as potencialidades oriundas de se possuir o genoma completo ou parcial de um organismo.

Georgios Pappas Jr. é professor da Universidade Católica de Brasília.

Referências:
1) What a genome
2) Vukmirovic, O. G. and Tilghman, S.M. (2000) - Exploring genome space. Nature.: 405, 820-822
3) Genomics funding
4) NCBI Entrez - Genomes
5) Venter, J. Craig et al. (2001) - The Sequence of the Human Genome. Science. : 291, 1304-1351.
6) International Human Genome Sequencing Consortium (2001) - Initial sequencing and analysis of the human genome. Nature. : 409,860-921.
7) A history of the human genome project
8) A. J. G. SIMPSON et al. (2000) - The genome sequence of the plant pathogen Xylella fastidiosa. Nature. : 406, 151-157.
9) Projeto genoma nacional
10) Projeto Genolyptus
11) Projeto genoma Pb
12) Rede Biofoco
13) O que é computação em grid?

 
Anterior Proxima
Atualizado em 10/08/2003
http://www.comciencia.br
contato@comciencia.br

© 2003
SBPC/Labjor
Brasil