Parte 6·6.1·12 min de leitura

Mutações e Variantes

Mutações são mudanças na sequência de DNA — a matéria-prima da evolução, os impulsionadores do câncer e os alvos da genômica clínica.

mutaçõesvariantesgenômicaSNPsindels

Todo humano difere da referência em aproximadamente 4–5 milhões de posições. Algumas diferenças causam doenças. A maioria é inofensiva. Poucas conferem vantagens. Entender os tipos de , como surgem e como classificar seus efeitos é fundamental para a genômica clínica, biologia do câncer e análise evolutiva.

Isso não é taxonomia abstrata. Quando você executa um chamador de em um par tumor-normal, cada linha de saída é uma descrita por essas categorias. Quando você interpreta um relatório clínico de , cada entrada é classificada por esse framework. Conhecer os tipos e efeitos das determina quais perguntas você pode fazer e quais ferramentas usa para respondê-las.

Mutação vs. Variante: A Terminologia

Esses termos são frequentemente usados de forma intercambiável, mas na genômica clínica eles têm contextos distintos:

implica uma mudança patológica — uma conhecida por causar doença. É um julgamento clínico.

é o termo neutro para qualquer posição que difere da referência. As são ainda classificadas por evidência:

  • Patogênica: sabe-se que causa doença
  • Provavelmente patogênica: evidência forte de patogenicidade
  • de significado incerto (VUS): evidência insuficiente
  • Provavelmente benigna: provavelmente inofensiva
  • Benigna: sabe-se não ter efeito sobre a doença

A distinção importa para a comunicação com clínicos e pacientes. Tudo em um é uma ; muito poucos são no sentido clínico.

Tipos de Variantes por Tamanho e Mecanismo

Variantes de Nucleotídeo Único (SNVs)

Uma mudança de única. O tipo mais comum de variação genética. Quando se refere a SNVs comuns encontrados com frequência >1% na população, eles são chamados de SNPs (polimorfismos de único). A maioria das associadas a doenças descobertas em GWAS são SNPs.

SNVs em regiões codificantes são classificados pelo seu efeito na :

Sinônimos (silenciosos): O muda, mas o códon ainda codifica o mesmo (devido à degeneração do código). Sem mudança de . Frequentemente assumido como neutro — mas pode afetar o , uso de códon ou estabilidade do .

Missense: A mudança de faz com que um diferente seja incorporado. O efeito na função proteica depende das propriedades do e da posição. Uma substituição conservativa (por exemplo, Leu → Ile, ambos hidrofóbicos) é menos provável de ser prejudicial do que uma radical (por exemplo, Arg → Glu, reversão de carga).

Nonsense: A mudança de cria um códon de parada prematuro (UAA, UAG, UGA). Produz uma truncada — quase sempre perda de função se o códon de parada é precoce na sequência codificante. O truncado é frequentemente degradado por NMD (decaimento mediado por códon de parada).

Sítio de splice: Ocorre na sequência de sítio de splice consensual (GT no sítio de splice 5', AG no sítio de splice 3', ou sequências próximas). Rompe o → skipping de , retenção de ou ativação de splice críptico. Frequentemente tão prejudicial quanto nonsense.

Inserções e Deleções (Indels)

Indels em quadro: Comprimento divisível por 3 → insere ou deleta sem romper o quadro de . Tipicamente menos grave do que indels que causam mudança de quadro. Pode deletar um resíduo ou domínio crítico.

Indels de mudança de quadro: Comprimento não divisível por 3 → muda o quadro de de todos os códons downstream. Produz uma sequência de completamente diferente após o indel, geralmente seguida rapidamente por um códon de parada prematuro. Quase sempre perda de função.

Variantes Estruturais (SVs)

Rearranjos de em larga escala afetando centenas de pares de a megabases:

  • de Número de Cópia (CNVs): duplicações ou deleções de segmentos cromossômicos. Amplificação gênica (cópias extras → superexpressão de ) e deleção (menos cópias → expressão reduzida ou perda de função) são ambas comuns no câncer.
  • Inversões: um segmento é invertido em orientação
  • Translocações: um segmento se move para um diferente (ou uma posição diferente no mesmo ). Translocações oncogênicas criam fusão: BCR-ABL na LMC (t(9;22)), EML4-ALK no câncer de pulmão, etc.
  • Inserções de elementos móveis: retrotransposons ou outros elementos móveis inseridos em

Repetições em Tandem

Motivos de sequência curtos repetidos em tandem. Microssatélites (repetições de 2–6 pb) são altamente polimórficos e propensos a erros de deslizamento de replicação. A expansão de repetições de trinucleotídeo é o mecanismo da doença de Huntington (expansão de CAG em HTT), Síndrome do X Frágil (expansão de CGG em FMR1) e outras doenças neurodegenerativas.

Mecanismos de Mutação

Erros de Replicação

A polimerase ocasionalmente incorpora a errada (a correção de provas reduz isso para ~1/10⁹ por por replicação). O reparo de incompatibilidade captura então a maioria dos erros restantes. Os poucos que escapam se tornam permanentes.

Dano Químico Espontâneo

  • Desaminação: a citosina perde espontaneamente seu grupo amino → uracila (lida como timina). Cria transições C→T, mais comumente em dinucleotídeos CpG. Este é o mecanismo mutacional endógeno mais comum.
  • Depurinação: de purina são clivadas espontaneamente da cadeia, criando sítios abásicos.
  • Oxidação: espécies reativas de oxigênio (ERO) geram 8-oxoguanina, que pode fazer pares errados com adenina → transversões G:C→T:A.

Mutágenos Ambientais

  • Radiação UV: cria dímeros de pirimidina ciclobutano e fotoprodutos 6-4 em pirimidinas adjacentes → transições C→T e CC→TT. Assinatura característica em cânceres de pele.
  • Fumo de cigarro: hidrocarbonetos aromáticos policíclicos e outros carcinógenos criam adutos volumosos → transversões G→T. Assinatura característica em cânceres de pulmão de fumantes.
  • Agentes alquilantes: anexam grupos metil ou etil às do → erros durante a replicação.
  • Radiação ionizante: quebras de fita dupla → grandes deleções, translocações.
  • Citidina desaminases APOBEC: celulares normalmente envolvidas na imunidade inata; quando desreguladas, causam extensas C→T e C→G em contextos TC. Processo mutacional importante em muitos tipos de câncer.

Assinaturas Mutacionais

O padrão de em um reflete os processos que os causaram. O banco de dados de Assinaturas Mutacionais COSMIC (v3.4 em 2024) cataloga 78 assinaturas de substituição de única validadas, além de outras para pequenos indels e SVs.

Cada assinatura é caracterizada pelas taxas relativas de todos os 96 tipos de (6 tipos de substituição × 16 contextos de trinucleotídeo). A Assinatura 4 (tabagismo) é dominada por C[G→T]G. A Assinatura 7a/7b (UV) é dominada por C[C→T]C. A Assinatura 3 (deficiência de recombinação homóloga, encontrada em tumores com BRCA1/2) é dominada por deleções.

Decompor as de um tumor em assinaturas mutacionais revela a etiologia — o que causou as — e pode ter implicações clínicas (assinatura semelhante a BRCA1/2 → pode responder a inibidores de PARP).

Frameworks de Classificação de Variantes

Diretrizes ACMG/AMP

O padrão para classificação de germinativas (usadas em laboratórios de genética clínica) são as diretrizes ACMG/AMP de 2015. Elas usam uma combinação de critérios de evidência:

  • Frequência populacional: A é comum na população geral? Comum = menos provavelmente patogênica.
  • Predições computacionais: Ferramentas (SIFT, PolyPhen-2, AlphaMissense) preveem que é prejudicial?
  • Estudos funcionais: Ela rompe a função proteica em ensaios experimentais?
  • Segregação: A co-segrega com a doença em famílias afetadas?
  • patogênicas conhecidas: É igual ou similar a uma patogênica previamente validada?

As evidências são combinadas para alcançar uma das 5 classificações (patogênica, provavelmente patogênica, VUS, provavelmente benigna, benigna).

OncoKB e Oncogenômica Clínica

Para somáticas (câncer), sistemas de classificação separados se aplicam. O OncoKB classifica pela sua acionabilidade clínica — se há um medicamento aprovado, um ensaio clínico ou apenas evidência biológica.

Uma BRAF V600E em melanoma é Nível 1 (terapia aprovada pela FDA: vemurafenibe, dabrafenibe). A mesma no colangiocarcinoma pode ser Nível 3A (evidência de ensaios clínicos, não aprovado). Cânceres diferentes, mesma , implicações clínicas diferentes.

O Formato de Arquivo VCF

Os dados de são armazenados em arquivos VCF (Variant Call Format). Este é o formato universal para dados de genômicas.

##fileformat=VCFv4.2
##reference=GRCh38
##FILTER=<ID=PASS,Description="All filters passed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read depth">
#CHROM POS     ID          REF ALT QUAL FILTER INFO           FORMAT  SAMPLE1
chr17  7674220 rs28934578  G   T   .    PASS   AF=0.001;      GT:DP   0/1:45
chr7   140453136 .         A   T   100  PASS   SOMATIC;       GT:DP   0/1:120

Campos-chave:

  • CHROM/POS: e posição baseada em 1
  • REF/ALT: de referência e alternativo
  • QUAL: escore de qualidade da
  • FILTER: PASS ou razão para filtragem
  • INFO: anotações delimitadas por ponto e vírgula (frequência , efeito funcional, etc.)
  • FORMAT/SAMPLE: dados de por amostra

O campo GT () codifica os : 0/0 = homozigoto de referência, 0/1 = heterozigoto, 1/1 = homozigoto alternativo. somáticas em tumores são frequentemente 0/1 com uma fração de (VAF) muito abaixo de 50% devido à heterogeneidade tumoral e contaminação de normais.

Ferramentas de anotação de VCF (ANNOVAR, VEP, SnpEff) adicionam efeitos funcionais previstos ao campo INFO.

Principais Bancos de Dados Populacionais

dbSNP: banco de dados do NCBI de conhecidas. Atribui números rs a comuns e observadas clinicamente. Uma no dbSNP não é necessariamente benigna — significa apenas que foi observada antes.

gnomAD (Banco de Dados de Agregação Genômica): ~800.000 exomas e ~76.000 inteiros de populações diversas. O banco de dados de frequência populacional mais importante. Uma observada em milhares de indivíduos do gnomAD quase certamente não é uma de doença de alta penetrância.

ClinVar: banco de dados do NCBI de associações -doença. Agrega classificações de laboratórios clínicos, pesquisadores e fontes curadas. A referência primária para interpretação clínica de .

COSMIC (Catálogo de Somáticas no Câncer): banco de dados de somáticas de de tumores. Contém >8 milhões de únicas de >40.000 amostras de tumor. Essencial para identificar oncogênicas e assinaturas mutacionais.

Entender esses bancos de dados — seu escopo, suas limitações e como consultá-los — é a da genômica clínica e da bioinformática do câncer. No Capítulo 6.5 trabalharemos diretamente com arquivos VCF em Python para realizar essa análise computacionalmente.

DECODER
Biology

Mutações são alterações permanentes na sequência de DNA — substituições, inserções ou deleções de uma ou mais bases. A maioria das mutações é neutra ou reparada antes da expressão; uma pequena fração altera a função proteica. Mutações somáticas afetam apenas o indivíduo; mutações germinativas são hereditárias.

{ } For Developers

Uma mutação é um bit flip no código-fonte. Uma substituição sinônima é um no-op (mesmo aminoácido, códon diferente — como renomear uma variável em um binário compilado). Uma mutação missense é um erro de tipo: aminoácido diferente, função potencialmente quebrada. Um frameshift (inserção/deleção) é corrupção de toda a sequência downstream — cada códon após o ponto de edição está errado. Mutações nonsense são dereferências de ponteiro nulo: um códon de parada prematuro trunca a proteína.

LAB · Simulador de Mutação Pontual
Python · Pyodide