Rede
de pesquisa e desenvolvimento em bioinformática do centro-oeste
Georgios
Pappas Jr.
Recentemente, muito tem se ouvido falar em projetos genoma. Para
os leigos, basta dizer que o objetivo de tal empreitada é
o conhecimento total ou parcial da seqüência de DNA do
organismo em questão [1]. Como volumes de uma enciclopédia,
o genoma guarda em posições específicas, denominadas
genes, as informações que orientam todos os aspectos
da síntese de proteínas que, em última instância,
são as máquinas moleculares que controlam a fisiologia
das células.
Em
termos práticos, o processo experimental para se obter essas
informações é realizado por máquinas
chamadas de seqüenciadores automáticos de DNA. Entretanto,
limitações técnicas impedem que se seqüencie
regiões maiores que 1000 bases por vez. Desta forma, para
viabilizar o seqüenciamento completo do genoma, deve-se, primeiramente,
tratar o DNA das células de forma a criar inúmeros
fragmentos, os quais devem ser individualmente seqüenciados
e, posteriormente, montados com auxílio de computadores como
verdadeiras peças de um quebra-cabeças.
Desta
forma, para acessar a enciclopédia da vida teríamos
primeiro que rasgar todas as páginas, ler os pequenos pedaços
e, finalmente, tentar reconstituir o texto a partir de mensagens
cifradas. Em tempo, o genoma humano é composto por aproximadamente
3,3 bilhões de letras, o bastante para preencher 100 volumes
de uma enciclopédia com 1000 páginas cada! Mas isto
não é tudo: apesar de conhecermos as letras do alfabeto,
não temos domínio completo sobre o significado das
palavras.
Neste
cenário, quase proibitivamente complexo, se encontravam os
biólogos, que, justamente nesse ambiente adverso, estabeleceram
uma das parcerias mais produtivas no contexto científico
mundial: a bioinfomática. De forma simplificada, a biologia
forneceria os problemas e a ciência da computação,
as ferramentas para solucioná-los. Felizmente, esta união
sinérgica vai além e provê novas vertentes de
pesquisa para ambas as ciências.
Por
estar ainda nos seus primeiros passos, a bioinformática encontra-se
em um processo de franco crescimento e desenvolvimento contínuo
de novos algoritmos que visam, em termos gerais, entender melhor
os dados provenientes dos projetos genoma. O objetivo principal
seria a descoberta de padrões nas novas seqüências
de forma a se inferir suas prováveis funções.
Qual
seria a função celular desta seqüência
de DNA? Esta é a pergunta imediata que surge quando se decifra
os pares de bases de um fragmento genômico, e pode ser respondida,
de forma relativamente rápida e confiável, através
da utilização de programas de computador.
Dispondo
de tais ferramentas atingiu-se um patamar onde os experimentos passam
a ser realizados primeiramente in silico (no computador) para depois
serem confirmados in vivo ou in vitro. Diante desta mudança
de paradigma da pesquisa biológica, verifica-se que o acúmulo
em massa de dados genômicos só se justifica caso seja
possível interpretá-los consistentemente.
Um
grande investimento econômico vem sendo destinado para os
projetos genoma ([2],[3]). Avanços na área de biologia
molecular e dos equipamentos disponíveis para pesquisa nesta
área tem permitido o seqüenciamento de um grande número
de genomas de espécies animal, vegetal e microbiana. De fato,
observa-se um movimento mundial de seqüenciamento de genomas.
Atualmente (2003), dispõe-se de centenas de genomas completos
[4]. Definitivamente, o grande marco para a genômica foi a
publicação do genoma humano ([5],[6],[7]), em 2001,
que abre um grande leque para o entendimento de diversas doenças
e da própria fisiologia do ser humano.
O Brasil
ocupa uma posição de destaque no cenário mundial,
principalmente após a publicação, em 2000,
do genoma da bactéria Xylella fastidiosa [8], causadora
da praga do amarelinho em citrus. Este trabalho, além de
um marco para a ciência brasileira, teve, provavelmente como
sua maior contribuição, o estabelecimento definitivo
da bioinformática no nosso país mediante o trabalho
pioneiro dos doutores. João Meidanis e João Setubal
da Unicamp.
A partir
de então, uma série de projetos genoma foi deflagrada
no Brasil com o apoio do CNPq como o projeto genoma nacional [9]
e projetos genoma regionais visando disseminar a genômica
entre as regiões brasileiras. Em particular, tem se verificado
o grande crescimento científico na área genômica
no centro-oeste do Brasil. Instituições da região
coordenam e participam de diversos projetos genoma de alcance nacional
ou regional, tais como os genomas do eucalipto (genolyptus, [10]),
café, banana (promusa) e do fungo Paracoccidioides brasiliensis
[11].
Uma
premissa básica para a própria concepção
de qualquer projeto genoma é a necessidade do estabelecimento
de uma infra-estrutura de bioinformática capaz de gerir e
analisar os dados gerados. Tendo consciência da relativa escassez
de recursos humanos nesta nova área da biologia, três
instituições da região centro-oeste, a Universidade
Católica de Brasília, a Universidade de Brasília
e a Embrapa Recursos Genéticos e biotecnologia, resolveram
unir esforços e consolidar a proposta de criação
de uma rede de bioinformática com a finalidade de otimizar
a dinâmica dos projetos genoma na região e abrir horizontes
para os novos direcionamentos da pesquisa biológica. No final
do ano de 2001, por ocasião do primeiro edital do CNPq para
projetos em bioinformática, materializou-se a Rede de Pesquisa
em Bioinformática do Centro-Oeste, o Biofoco [12].
O objetivo
geral do Biofoco é criar uma rede de pesquisa e desenvolvimento
em bioinformática integrando instituições líderes
em pesquisa e ensino, capaz de oferecer apoio aos grupos e redes
de pesquisa genômica e proteômica oferecendo conhecimentos,
ferramentas e sistemas avançados associados a iniciativas
de capacitação de técnicos e pesquisadores.
Além disso, há o intuito de se constituir um fórum
virtual para intercâmbio de pesquisadores em bioinformática.
Todos
os projetos genoma têm necessidades básicas comuns,
como criar uma infra-estrutura para receber, processar e armazenar
os dados de seqüenciamento. A solução para tanto
foi o desenvolvimento conjunto de um software que lide com todos
esses aspectos operacionais. Este programa utiliza técnicas
avançadas de programação para criar um ambiente
não muito diferente de um sistema do tipo home banking, oferecendo
funcionalidades como segurança, transações
múltiplas e uma rica interface gráfica.
Vale
a pena ressaltar que todos os componentes nos quais o software se
baseia são gratuitos, do sistema operacional (Linux) e linguagens
de programação (Java, PERL) até o sistema de
bancos de dados (Postgresql). Este aspecto econômico também
é fundamental pois fornece uma independência tecnológica
sem contudo afetar a sua eficiência e confiabilidade, além
de ser mais realista com relação à situação
brasileira. Outra estratégia seguida pelo Biofoco é
a adoção da tecnologia de computação
em grid [13], que consiste em compartilhar os recursos computacionais
de diversas máquinas distribuídas entre as instituições
de forma a executar aplicações em larga escala. Com
isso, as instituições conseguem realizar um volume
de análises maior que se operassem individualmente além
diminuir a ociosidade global das máquinas. Assim, grande
parte da plataforma será compartilhada, gerando economia
considerável em função da racionalização
dos investimentos.
A contribuição
da bioinformática pode ser categorizada em duas vertentes
principais: a prestação de serviços e o desenvolvimento
de novas abordagens teóricas. No primeiro caso, as atribuições
concentram-se no desenvolvimento de plataformas capazes de administrar
o recebimento, manipulação, análise e distribuição
de dados de projetos genoma e proteoma. O segundo caso caracteriza-se
como uma área de pesquisa onde buscam-se desenvolver novos
algoritmos visando gerar programas que auxiliem a mineração
de dados.
A rede
Biofoco visa contemplar ambas as vertentes por ser claro que estas
são estritamente relacionadas e complementares. Serviços
de bioinformática são continuamente criados para dar
suporte aos projetos genoma em andamento e novos algoritmos deverão
ser desenvolvidos para responder a perguntas que surgem em projetos
locais enriquecendo o leque de serviços oferecidos pela rede.
Por
outro lado, pode-se ressaltar que a grande vantagem da rede é
a possibilidade de contar com uma vasta gama de especialistas em
áreas específicas da computação e biologia,
o que acaba por criar um ambiente de complementação
técnica que enriquece a concepção, discussão
e execução das tarefas.
Em
paralelo, projetos proteoma começaram a ser desenvolvidos.
Proteoma é o conjunto de todas as proteínas que intervêm
nos processos biológicos de uma espécie, sendo que
o principal objetivo desses projetos visa determinar a composição,
estrutura, e funções das proteínas, ou seja,
conhecer a função dos genes anteriormente descritos
nos projetos genoma. No segundo grande objetivo do Biofoco espera-se
desenvolver uma plataforma integrada para a identificação
e anotação funcional de proteínas.
Tela
do software para gerenciamento e análise de dados de projetos
genoma desenvolvido pelo BIOFOCO.
Em
junho de 2003 realizou-se o primeiro workshop do Bofoco, em Brasília,
e neste encontro deu-se início ao processo de expansão
da rede com o ingresso da Universidade Federal de Goiás (UFG)
e Mato Grosso do Sul (UFMS). Além disso, pesquisadores da
Universidade Federal do Rio Grande do Sul (UFRGS) e de Alagoas (Ufal)
também se uniram à rede. Basicamente, os membros buscaram
identificar problemas passíveis de serem solucionados em
conjunto. A principal vantagem de se possuir uma rede de pesquisa
como esta é a de unir pesquisadores ao redor de temáticas
comuns e evitar a sobreposição de tarefas possibilitando
assim uma divisão eficiente de trabalho. Isto sumariza a
essência do Bofoco: BIOinFOrmática COoperativa.
Por
fim, não seria exagero afirmar que a bioinformática
é uma das chaves para o sucesso da análise de dados
de projetos genômicos. O fortalecimento da pesquisa nesta
área é estratégico para fornecer o suporte
necessário às áreas experimentais e impulsionar
significativamente as descobertas científicas. Em função
deste quadro, a análise computacional dos dados gerados ou
existentes torna-se um exercício de suma importância
para viabilizar a extração das informações
pertinentes e realmente poder concretizar as potencialidades oriundas
de se possuir o genoma completo ou parcial de um organismo.
Georgios
Pappas Jr. é professor da Universidade Católica de
Brasília.
Referências:
1) What
a genome
2) Vukmirovic, O. G. and Tilghman, S.M. (2000) - Exploring genome
space. Nature.: 405, 820-822
3) Genomics
funding
4) NCBI
Entrez - Genomes
5) Venter, J. Craig et al. (2001) - The Sequence of the Human
Genome. Science. : 291, 1304-1351.
6) International Human Genome Sequencing Consortium (2001) - Initial
sequencing and analysis of the human genome. Nature. : 409,860-921.
7) A
history of the human genome project
8) A. J. G. SIMPSON et al. (2000) - The genome sequence of the plant
pathogen Xylella fastidiosa. Nature. : 406, 151-157.
9) Projeto genoma
nacional
10) Projeto
Genolyptus
11) Projeto
genoma Pb
12) Rede Biofoco
13) O
que é computação em grid?
|