Aceder a http://megasoftware.net/
Usar o primeiro menu para selecionar o sistema operativo (Windows/ Mac OS X etc.), manter o segundo em Graphical (UI), e usar o terceiro para selecionar a versão:
Antes de poder descarregar é necessário introduzir informação anónima para as estatísticas de utilização. Deve ficar preenchido com:
Após clicar em DOWNLOAD, o ficheiro é transferido e depois deve iniciar-se a instalação, que é automática.
Este software é gratuito e não tem vírus, nem "ofertas" de qualquer espécie. Recomenda-se clicar no botão Manual no site, para documentação de apoio.
Treinar alinhamento e construção de árvores com um conjunto de sequências fornecido (TAS2R38 de diversos Boreoeutheria)
Gravar o ficheiro TAS2R38 numa pasta à escolha
No M.E.G.A., carregar no botão Align, e selecionar Edit/Build alignment
Selecionar Retrieve sequences from a file
Selecionar TAS2R38.fas, e abre-se a janela de alinhamento.
No menu Alignment selecionar Align by Muscle. Dar OK à pergunta select all. Clicar em Compute.
Depois de completado o alinhamento, selecionar o separador Translated Protein Sequences, respondendo Yes às perguntas.
Notar os pontos de interrogação no início da sequência 27. No canto inferior esquerdo onde está Site #, introduzir 331 e fazer Enter. Aí também se encontram pontos de interrogação exceto nas sequências 27 e 28.
Selecionar o separador DNA Sequences e em Site # introduzir 991 (3 x 330 +1). Os pontos de interrogação indicam codões interrompidos pelos espaços inseridos (o codão é AC------A).
Na sequência 23, colocar o cursor na posição 1 e escrever nn, e em seguida apagar os dois espaços (--). Estas edições deslocam a sequência para a direita e depois para a esquerda, retomando o alinhamento mas ficando desta vez com 2 nucleótidos n nas 2 primeiras posições.
No menu Alignment, selecionar Align by Muscle (Codons). À pergunta se quer remover os gaps antes do alinhamento, selecionar Yes. Ignorar o aviso sobre o aparecimento de codões stop.
Verificar que na posição 331 (991) já não há ambiguidade. Pode verificar-se (alternando com o separador DNA Sequences) que os pontos de interrogação remanescentes se devem a letras diferentes de A, G, C, T, mas há codões de terminação (asteriscos na sequência 10, posição 314, codão TAG; sequências 25 e 26, na penúltima posição).
De novo em DNA Sequences, introduzir 1003 em Site #. Nas sequências 25 e 26, vê-se que o codão de terminação (TGA) está 3 posições recuado em relação aos das restantes sequências. Com o rato, selecionar o T dessas duas sequências na posição 1003 e premir 3 vezes a tecla de espaços.
Na sequência 27, posição 1, escrever atg, e deletar os ATG que se encontram após o intervalo de espaços.
Na mesma sequência, posição 532, introduzir 3 espaços e, depois do AAT, apagar os espaços pré-existentes. Proceder igualmente na sequência 21.
O alinhamento está preparado. No menu Data, selecionar Save session, e gravar com o nome TAS2R38al na mesma pasta. Notar que o ficheiro gravado vai ter uma extensão .mas, que é a de sessões de alinhamento. Fechar o alinhamento (menu Data, Close) e a janela.
Na janela principal carregar no botão Data, e selecionar Open a File/Session.
Selecionar TAS2R38al.mas, selecionar Analyze.
Aparecem 2 botões, um com a letras TA e outro com Close Data. Clicar no botão TA, abre-se uma janela de visualização dos dados.
Cada sequência é representada maioritariamente por pontos (nota: caso não esteja, no menu Display selecionar Use Identical Symbol), querendo significar que nessa posição são idênticas à sequência que aparece no topo. Clicando no botão C abaixo dos menus, são assinaladas a amarelo as posições invariantes no alinhamento.
No menu Data, escolher Select & Edit Taxa/Groups. Na janela que aparece, clicar no botão + New Group, escrever Hominidae, e na metade direita selecionar as sequências relevantes (géneros Homo, Pan, Gorilla e Pongo), usando a tecla Ctrl para seleção múltipla, clicando no botão no eixo central com uma seta para a esquerda, para integrá-las nesse grupo. Repetir o processo para Hylobatidae (géneros Nomascus, Hylobates, Symphalangus), Platyrrhini (Callithrix, Aotus), Strepsirrhini (Lemur), Scandentia (Tupaia), Muridae (M.musculus e R.norvegicus), Laurasiotheria (C.lupus e B.taurus) e Cercopithecidae (restantes géneros). No final, clicar no botão Save.
No menu Data, selecionar Save Session (produz-se um ficheiro com extensão .msdx), e fechar a janela.
Clicar no botão Close Data (não é preciso gravar a sessão outra vez).
No menu Data, abrir o ficheiro msdx recém-criado, que abre a janela de visualização, onde se podem por exemplo ordenar as sequências pelos grupos (pode ser necessário primeiro selecionar Show Group Names no menu Display; clicar no cabeçalho respetivo), ou excluir sequências desmarcando as caixas respetivas (por exemplo para análises só de alguns subgrupos, ou para selecionar alternativas para o grupo de referência).
Fechar a janela de visualização e clicar no menu Models.
Selecionar Find Best DNA/Protein Models (ML), confirmar (marcar a caixa Remember to reuse...), e antes de clicar Compute assegurar que os campos a amarelo têm Automatic, Nucleotide, Complete Deletion e Strong.
O que se segue é um avaliação de 24 modelos de substituição nucleotídica, que servem para parametrizar a análise filogenética, e a tabela resultante ordena-os por ordem decrescente do Bayesian Information Criterion (BIC), sendo o melhor o que está no topo (neste caso, é K2+G, ou seja o modelo Kimura 2-parameter com distribuição gama com α=1.53). Ver a NOTE no rodapé para uma explicação sumária do conteúdo da tabela. Ela pode ser gravada como ficheiro Excel clicando no botão com uma seta XL.
Passando ao botão Phylogeny, selecionar primeiro o método Minimum Evolution. Na janela de diálogo, usar para Test of phylogeny o Bootstrap method, com 500 replicações, em Substitutions to include d: Transitions + Transversions, para Model/Method Kimura 2-parameter model, para Rate Among Sites Gamma Distributed (G) parâmetro 1.53, e Complete Deletion. Clicando em Compute, a filogenia é calculada e apresentada numa janela com o título Tree Explorer: TASR38gr.
Novamente no botão Phylogeny, selecionar Maximum Parsimony, e antes de clicar Compute reduzir o número de replicações para 100 (é um método muito mais demorado). Notar que não há Model/Method, pois não depende das distâncias entre sequências. Após clicar em Compute, quando o resultado seja apresentado, clicar no separador Bootstrap Consensus Tree. Analisar a plausibilidade desta árvore, comparando-a com a obtida pelo método Minimum Evolution.
Em cada uma das árvores obtidas selecionar o ramo que une C.lupus e B.taurus, e no menu Subtree selecionar Root (triângulo verde). Compare os resultados.
Também pode realizar a análise com um terceiro método, Maximum Likelihood (usar também 100 replicações). Ou por exemplo examinar apenas alguns grupos, desmarcando o que não interessar (por exemplo os Hominidae, ou os Cercopithecidae, escolhendo os grupos de referência adequados).
Recolher sequências de referência das bases de dados, para uso na aula de 15 de novembro.
Abrir a página do programa B.L.A.S.T. online https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
Na secção Enter Query Sequence, clicar no botão Choose File (upload file) e selecionar o ficheiro com a sequência 1.
Na secção Choose Search Set apenas deverá estar marcado Others (database) e na secção Program Selection a opção é megablast (Optimize for).
Marcar a caixa Show results in a new window e clicar no botão BLAST. Aparece uma nova janela indicando que o pedido está a ser processado.
Obtido o relatório da busca, que contém poucos “hits”, pode verificar-se que a sequência 1 está no registo DQ157886 (coluna Accession na tabela de resultados (Descriptions)), o qual pode abrir-se no link respetivo. Anotar as informações sobre a identidade atribuída à sequência, tanto para o organismo como para a molécula codificada.
De volta à página de introdução de sequências no BLAST, selecione o separador blastx, volte a introduzir a sequência através do botão Browse... (upload file); verifique que o código genético é Standard (1) e a base de dados é Non-redundant protein sequences (nr)
Na seleção do organismo, introduza Metazoa, e escolha a opção que especifica taxid:33208 (esta busca pode ser bastante prolongada; circunscrever num grupo de organismos permite acelerar a resposta).
Marcar a caixa Show results in a new window e clicar no botão BLAST. Aparece uma nova janela indicando que o pedido está a ser processado.
O relatório apresenta desta vez muitas sequências, e ainda uma caixa Show conserved domains onde se lê RF +2 (referente à grelha de leitura) e estão anotados 2 domínios conservados, da phosphagen kinases superfamily.
Clicar no link Taxonomy reports (Other reports), que dá uma panorâmica dos táxones onde o BLAST detetou homologia com a sequência 1 (traduzida). Na coluna Description, cada link salta para a secção com a respetiva espécie, e nessa secção estão listados todos os “hits”, cada qual com um registo individual na base de dados, que pode ser acedido através dos links na coluna da direita.
Em cada registo (acedido pelo link na coluna Accession, à direita) pode guardar-se a sequência enviando-a para o Clipboard (no alto da página, no menu Send to:, selecionar Clipboard e premir o botão Add to Clipboard). A página do registo pode ser fechada, e voltando-se ao Taxonomy report podem continuar a acumular-se sequências no Clipboard. Juntar até 6 sequências não redundantes.
Quando terminado, clica-se num link no topo à direita Clipboard: x items, abrindo-se uma página com as sequências colecionadas. No menu Send to: escolher a opção File, FASTA (menu Format:) e premir o botão Create File, dando depois um nome à escolha para a coleção de sequências.
Abrir o endereço https://www.ncbi.nlm.nih.gov/gene, onde é possível fazer uma busca paralela de mais sequências. Na caixa de busca, escrever arginine kinase e clicar em Search.
Para filtrar os 539 resultados, existe na barra lateral direita uma secção (Results by taxon) onde se podem selecionar os grupos que interessam (nota: inicialmente pode não ver-se a hierarquia taxonómica, mas clicando em Tree ela passa a aparecer por defeito). Ao selecionar um grupo, a lista central fica restrita ao que pertence a esse grupo, e a partir daqui pode aceder-se a cada sequência usando o respetivo link, que abre uma página onde, na secção Genomic regions, transcripts, and products se encontra um link GenBank, que abre o respetivo registo na base de dados.
Neste caso não convém adicionar ao Clipboard, pois há sequências que estão integradas em genomas, que iriam ser descarregados por completo. No menu Send to: selecionar Complete Record e File (Choose Destination), e depois, conforme a configuração do browser, pode descarregar-se ou visualizar-se a sequência em formato FASTA. Recomenda-se visualizar cada sequência e ir juntando todas num ficheiro de texto simples (que abre no bloco de notas do Windows ou semelhante).
Quando terminado, pode juntar-se o material compilado ao ficheiro que foi guardado do Clipboard. Este ficheiro será utilizado durante a aula.
Caso haja curiosidade, na página de output do blastx, caixa Show conserved domains, pode clicar-se numa das 2 etiquetas do domínio phosphagen kinases superfamily, que abrirá uma nova janela onde se encontram mais detalhes sobre o domínio proteico em causa e vários links para a base de dados de domínios proteicos conservados, nomeadamente o primeiro de todos (cd07931), assim possicionado por ser o mais significativo; clicando nestes links pode ler-se mais sobre a estrutura, função, variantes, etc., das proteínas que os contêm.
Nota: este protocolo serviu para ver várias possibilidades de busca e obtenção de sequências das bases de dados, com as respetivas interfaces e opções. Um protocolo mais simples passaria por selecionar blastn (Somewhat similar sequences) em vez de megablast, na primeira busca, evitando-se assim o mais complexo blastx; mas ainda assim, cada estratégia de busca permite obter coisas diferentes, por isso vale a pena saber usar várias.