Texto escrito por: Vilmar Filho
Atualmente vivemos na era tecnológica, onde o acesso à informação é agilizado e facilitado pelos smartphones e pela internet móvel. Você já parou para pensar quanta informação recebe em um dia? Todo esse grande volume de dados gera opiniões, discussões e mais dados, que repetem este mesmo ciclo. Com a ciência não é diferente: a cada ano se produz mais e isso nos leva a novas discussões, mais pesquisas, novas hipóteses e… mais conhecimento científico. Um estudo de revisão do tema realizado por Bornman e Mutz, em 2014, mostrou um crescimento exponencial na produção científica e no número de citações a cada ano.
O número de citações de uma pesquisa reflete seu impacto na comunidade de cientistas, ou seja, uma pesquisa é citada se ela é inovadora ou gerou novas dúvidas; alimentou novas hipóteses; novos experimentos e, com todo este processo, mais conhecimento é gerado. Com base nisso, a partir da década de 60, segundo esses mesmos autores, o desenvolvimento regular da produção científica permitiu estabelecer uma projeção de crescimento de 8 a 9% ao ano. Ou seja, dobra-se a produção científica global a cada 10 anos!
Interessante, mas o que isso tem a ver com a biologia? Bom, em princípio, tudo. A tecnologia nos permite, cada vez mais, gerar, organizar e analisar dados por meio de computadores (in silico) e isso caracteriza o papel de um bioinformata. A partir do aprimoramento de técnicas e desenvolvimento de tecnologias, gera-se um volume gigantesco de dados, que precisam ser analisados e organizados de forma a contribuir para o avanço científico.
Mas que tipo de dado um biólogo pode gerar? Variados! Imagine Carolus (Carl) Linnaeus (1707-1778) – cientista do século XVII, pioneiro na classificação dos organismos com base em suas características (ramo da biologia que chamamos de taxonomia), que nomeou diversas espécies, inclusive a nossa (Homo sapiens). Realizava suas primeiras observações, analisava o mundo com a curiosidade de uma criança, identificava características de plantas, percebia as diferenças de estruturas as quais ele próprio teve que nomear. Depois de nomear, ele começava a observar e agrupar as plantas com características parecidas. Hoje, Linnaeus organizaria estas informações em bases de dados e criaria suas árvores filogenéticas baseadas em características morfológicas e moleculares. Hoje ele seria um bioinformata.
Para além da classificação das formas de vida, após a popularização das técnicas de sequenciamento de DNA passou-se a gerar um volume crescente de dados a cada ano, que inicialmente, diziam (de várias formas) apenas: A,T,C,G.
Voltamos ao ciclo dos dados, onde se guarda tudo isso?
Foi feito um acordo entre 3 bases de dados, protocolado em 1987, que estabelecia uma base de dados comum (inicialmente apenas de nucleotídeos), chamada INSDC (International Nucleotide Sequence Database Collaboration), garantindo que todo dado sequenciado e publicado esteja disponível para a comunidade científica em uma das 3 bases do acordo – GenBank dos EUA, Arquivo Europeu de Nucleotídeos (ENA), alocado no Instituto de Bioinformática Europeu (EMBL) e o Banco de dados de DNA do Japão (DDBJ).
Quando o genoma humano – que consiste na sequência de DNA completo de da espécie, contendo toda informação necessária para manter esta forma de vida – foi publicado em 2001, era o genoma humano. Pois era o único, deu um grande trabalho, custou muito e levou anos. Com o tempo, as técnicas de sequenciamento foram aprimoradas e ficaram mais baratas (Gráfico 1), permitindo que muitos outros genomas humanos fossem sequenciados, ultrapassando inclusive a projeção da Lei de Moore. Esta lei, postulada por Gordon Moore em 1965 – que estava abismado com o rápido crescimento da capacidade computacional das máquinas – determinou que a eficácia de processamento dobraria a cada 18 meses, mantendo seu custo. Com o tempo, utilizou-se esta métrica para toda e qualquer tecnologia com potencial crescimento inventada pela humanidade.
Hoje, o primeiro genoma humano é um dos 50 milhões de genomas humanos (estimado), alocados no INSDC, que mostram toda a variedade genética (sequenciada) da nossa espécie (Gráfico 2). Muitas vezes as coisas precisam ser redescobertas na ciência, e as novas tecnologias podem apenas confirmar resultados já obtidos, como o mapa genético da mosca-das-frutas, Drosophila melanogaster.
Em 1909, Morgan e colaboradores realizaram experimentos cruzando moscas em laboratório. Os cruzamentos forneciam proles variadas, algumas moscas aparentemente comuns, outras com algumas características peculiares, que as diferenciava das demais (cor do olho, formato de asa, cor do corpo), estas foram chamadas de mutantes. Os cientistas passaram a cruzar estas moscas diferentes e ver como as mutações apareciam nas proles. Se sabia como as características eram passadas de geração em geração (herança genética) – graças aos trabalhos de Mendel com ervilhas. Porém, a medida que realizavam cruzamentos, mais indivíduos mutantes apareciam e alguns com mutações frequentemente associadas – de forma que os cálculos não concordavam com a teoria Mendeliana. Assim, em 1911, Morgan propôs que estes genes mutados estariam no mesmo cromossomo e devido a isso, estes estariam “ligados” – como ele mesmo propôs. Essas descobertas levaram os cientistas a fazerem algumas conexões lógicas: todas as moscas possuem o mesmo tamanho de cromossomos; elas possuem os mesmos genes (que são essenciais para definição das características) e estes possuem uma localização exata em cada cromossomo, do contrário o conceito de genes ligados não se aplicaria.
Com estas bases, Morgan conseguiu estipular a distância entre os genes baseado na frequência com que se estes genes se “desligavam” um do outro. Isso ocorre em um processo conhecido como crossing over. Durante a formação dos gametas, os cromossomos se alinham e “trocam pedaços” (que contém genes), mas isso não ocorre sempre e nem no mesmo local. A lógica por trás disso é que genes mais distantes um do outro têm um espaço maior para que este fenômeno ocorra, e genes mais próximos, o contrário. Assim, a distância entre 2 genes do mesmo cromossomo foi estabelecida com base em quantos fenómenos de crossing over se espera que ocorram entre eles (probabilidade estatística) em consonância com as observações dos cruzamentos realizados em laboratório.
Em homenagem ao cientista, a unidade de distância entre genes foi cunhada como centimorgan – cM. Ao calcular a distância de vários genes, em 1913, Morgan e colaboradores propuseram o mapa genético da mosca-das-frutas, que consistia na distância dos genes em cada um dos quatro cromossomos da espécie. Quase um século depois, em 2000, o genoma da espécie foi sequenciado e o mapa genético foi confirmado com poucas correções.
|
Gráfico 1 – Redução do custo de sequenciamento por genoma ao longo do tempo desde a publicação do genoma humano. | Fonte: NIH (National Human Genome Research Institute), 2019. |
|
Gráfico 2 – Número de genomas humanos sequenciados e previsões para 2020 e 2025 baseados na taxa histórica (azul) e na lei de Moore (laranja). | Fonte: ARK Investment Management LLC
|
O que se faz com tantas letrinhas?
Constrói-se o alfabeto, depois um dicionário, alfabetiza-se um computador, ensina-o a ler e escrever poemas, a apreciar as grandes obras e contá-las às crianças! Ou seja, é preciso extrair a informação destes dados e tornar compreensível para as pessoas. Para isso é preciso reconhecer os padrões, buscar as semelhanças e exibir as conexões. Neste sentido, desenvolveram-se programas que identificam características em sequências de DNA, RNA e proteínas. Desde os mais simples (que dizem se uma sequência parece ser codificante para uma proteína, ou programas que identificam padrões que endereçam uma enzima à alguma região da célula); até algoritmos mais sofisticados, que permitem simular interações de compostos com a estrutura tridimensional da proteína; e redes neurais (arquiteturas de processamento criados com base na estrutura neuronal de organismos)
que buscam predizer a função de proteínas pela comparação da estrutura 3D (Figura 1) das mesmas – haja visto que a forma diz muito sobre a função quando o assunto é proteína.
|
Figura 1 – Estrutura parcial da enzima álcool desidrogenase 1 humana – evidenciando o sítio ativo ao centro, que metaboliza o álcool. Fonte: PDB, disponível em: http://www.rcsb.org/structure/2VNA |
A integração destes processos possibilitou a construção de diversas metodologias de análise in silico, que permitiram catalogar as variações genéticas comuns encontradas nas espécies; comparar sequências de DNA de indivíduos diferentes, identificar mutações e peculiaridades de cada indivíduo. Esses processos inclinam a pesquisa biológica, cada vez mais, à medicina personalizada – em que o tratamento de um paciente é adaptado à suas condições biológicas individuais. Neste sentido, o sequenciamento do genoma de um indivíduo, permite a identificação de genes mutantes associados à potencialidade de desenvolver alguma doença – como no famoso caso de Angelina Jolie. Além da identificação destes marcadores, pode-se cruzar diferentes perfis genéticos para analisar a possibilidade de rejeição à um transplante. Espera-se ajudar a selecionar medicamentos mais efetivos e definir doses mais seguras – reduzindo efeitos colaterais – futuramente. Assim, estas metodologias podem melhorar a expectativa e qualidade de vida das pessoas, combinando conhecimentos biológicos e tecnologia da informação.
Ao realizar testes in silico, menos animais são utilizados para testes (e os que são, obedecem normas de respeito aos direitos dos animais e com autorização de um comitê de ética). Além disso, o uso de algoritmos inteligentes na medicina personalizada permite melhores diagnósticos e tratamentos aos pacientes. Assim, se você ainda não se fascinou pela vida artificial, saiba que ela pode salvar vidas.
O trabalho realizado por computadores necessita de dados experimentais para refinar e melhorar a eficácia das predições e simulações. Contudo é preciso verificar se os padrões determinados por um algoritmo fazem sentido biológico. As máquinas executam, nós pensamos!
Deste modo, a bioinformática atua como eixo integrador de uma perspectiva ampla, é uma grande ferramenta que serve à toda pesquisa biológica. Como no exemplo de Linnaeus: atualmente há bases de dados de vários organismos, que fornecem informações para pessoas que não trabalham com bioinformática, mas que, por vezes, precisam refinar suas técnicas por meio de simulações e/ou análises em computadores, a fim de melhor realizar um experimento, por exemplo. Por outro lado, experimentos em bancada alimentam bases de dados, que fornecem matéria prima para treinar e desenvolver novos algoritmos, tornando a vida bela também in silico.
Assim, podemos dizer que todo biólogo é um bioinformata.
Será?
Bom, é apenas um rótulo baseado na ferramenta que o biólogo usa, como disse Markowetz em 2017: “Biólogo de pipetas. Bióloga de microscopia. Bióloga de cultura celular. Você já ouviu algum desses títulos de emprego? Não, claro que não […] são biólogos”.
Muito boa a leitura, parabéns, Vilmar, tens um talento na escrita.