Todo humano difere da referência em aproximadamente 4–5 milhões de posições. Algumas diferenças causam doenças. A maioria é inofensiva. Poucas conferem vantagens. Entender os tipos de , como surgem e como classificar seus efeitos é fundamental para a genômica clínica, biologia do câncer e análise evolutiva.
Isso não é taxonomia abstrata. Quando você executa um chamador de em um par tumor-normal, cada linha de saída é uma descrita por essas categorias. Quando você interpreta um relatório clínico de , cada entrada é classificada por esse framework. Conhecer os tipos e efeitos das determina quais perguntas você pode fazer e quais ferramentas usa para respondê-las.
Mutação vs. Variante: A Terminologia
Esses termos são frequentemente usados de forma intercambiável, mas na genômica clínica eles têm contextos distintos:
implica uma mudança patológica — uma conhecida por causar doença. É um julgamento clínico.
é o termo neutro para qualquer posição que difere da referência. As são ainda classificadas por evidência:
- Patogênica: sabe-se que causa doença
- Provavelmente patogênica: evidência forte de patogenicidade
- de significado incerto (VUS): evidência insuficiente
- Provavelmente benigna: provavelmente inofensiva
- Benigna: sabe-se não ter efeito sobre a doença
A distinção importa para a comunicação com clínicos e pacientes. Tudo em um é uma ; muito poucos são no sentido clínico.
Tipos de Variantes por Tamanho e Mecanismo
Variantes de Nucleotídeo Único (SNVs)
Uma mudança de única. O tipo mais comum de variação genética. Quando se refere a SNVs comuns encontrados com frequência >1% na população, eles são chamados de SNPs (polimorfismos de único). A maioria das associadas a doenças descobertas em GWAS são SNPs.
SNVs em regiões codificantes são classificados pelo seu efeito na :
Sinônimos (silenciosos): O muda, mas o códon ainda codifica o mesmo (devido à degeneração do código). Sem mudança de . Frequentemente assumido como neutro — mas pode afetar o , uso de códon ou estabilidade do .
Missense: A mudança de faz com que um diferente seja incorporado. O efeito na função proteica depende das propriedades do e da posição. Uma substituição conservativa (por exemplo, Leu → Ile, ambos hidrofóbicos) é menos provável de ser prejudicial do que uma radical (por exemplo, Arg → Glu, reversão de carga).
Nonsense: A mudança de cria um códon de parada prematuro (UAA, UAG, UGA). Produz uma truncada — quase sempre perda de função se o códon de parada é precoce na sequência codificante. O truncado é frequentemente degradado por NMD (decaimento mediado por códon de parada).
Sítio de splice: Ocorre na sequência de sítio de splice consensual (GT no sítio de splice 5', AG no sítio de splice 3', ou sequências próximas). Rompe o → skipping de , retenção de ou ativação de splice críptico. Frequentemente tão prejudicial quanto nonsense.
Inserções e Deleções (Indels)
Indels em quadro: Comprimento divisível por 3 → insere ou deleta sem romper o quadro de . Tipicamente menos grave do que indels que causam mudança de quadro. Pode deletar um resíduo ou domínio crítico.
Indels de mudança de quadro: Comprimento não divisível por 3 → muda o quadro de de todos os códons downstream. Produz uma sequência de completamente diferente após o indel, geralmente seguida rapidamente por um códon de parada prematuro. Quase sempre perda de função.
Variantes Estruturais (SVs)
Rearranjos de em larga escala afetando centenas de pares de a megabases:
- de Número de Cópia (CNVs): duplicações ou deleções de segmentos cromossômicos. Amplificação gênica (cópias extras → superexpressão de ) e deleção (menos cópias → expressão reduzida ou perda de função) são ambas comuns no câncer.
- Inversões: um segmento é invertido em orientação
- Translocações: um segmento se move para um diferente (ou uma posição diferente no mesmo ). Translocações oncogênicas criam fusão: BCR-ABL na LMC (t(9;22)), EML4-ALK no câncer de pulmão, etc.
- Inserções de elementos móveis: retrotransposons ou outros elementos móveis inseridos em
Repetições em Tandem
Motivos de sequência curtos repetidos em tandem. Microssatélites (repetições de 2–6 pb) são altamente polimórficos e propensos a erros de deslizamento de replicação. A expansão de repetições de trinucleotídeo é o mecanismo da doença de Huntington (expansão de CAG em HTT), Síndrome do X Frágil (expansão de CGG em FMR1) e outras doenças neurodegenerativas.
Mecanismos de Mutação
Erros de Replicação
A polimerase ocasionalmente incorpora a errada (a correção de provas reduz isso para ~1/10⁹ por por replicação). O reparo de incompatibilidade captura então a maioria dos erros restantes. Os poucos que escapam se tornam permanentes.
Dano Químico Espontâneo
- Desaminação: a citosina perde espontaneamente seu grupo amino → uracila (lida como timina). Cria transições C→T, mais comumente em dinucleotídeos CpG. Este é o mecanismo mutacional endógeno mais comum.
- Depurinação: de purina são clivadas espontaneamente da cadeia, criando sítios abásicos.
- Oxidação: espécies reativas de oxigênio (ERO) geram 8-oxoguanina, que pode fazer pares errados com adenina → transversões G:C→T:A.
Mutágenos Ambientais
- Radiação UV: cria dímeros de pirimidina ciclobutano e fotoprodutos 6-4 em pirimidinas adjacentes → transições C→T e CC→TT. Assinatura característica em cânceres de pele.
- Fumo de cigarro: hidrocarbonetos aromáticos policíclicos e outros carcinógenos criam adutos volumosos → transversões G→T. Assinatura característica em cânceres de pulmão de fumantes.
- Agentes alquilantes: anexam grupos metil ou etil às do → erros durante a replicação.
- Radiação ionizante: quebras de fita dupla → grandes deleções, translocações.
- Citidina desaminases APOBEC: celulares normalmente envolvidas na imunidade inata; quando desreguladas, causam extensas C→T e C→G em contextos TC. Processo mutacional importante em muitos tipos de câncer.
Assinaturas Mutacionais
O padrão de em um reflete os processos que os causaram. O banco de dados de Assinaturas Mutacionais COSMIC (v3.4 em 2024) cataloga 78 assinaturas de substituição de única validadas, além de outras para pequenos indels e SVs.
Cada assinatura é caracterizada pelas taxas relativas de todos os 96 tipos de (6 tipos de substituição × 16 contextos de trinucleotídeo). A Assinatura 4 (tabagismo) é dominada por C[G→T]G. A Assinatura 7a/7b (UV) é dominada por C[C→T]C. A Assinatura 3 (deficiência de recombinação homóloga, encontrada em tumores com BRCA1/2) é dominada por deleções.
Decompor as de um tumor em assinaturas mutacionais revela a etiologia — o que causou as — e pode ter implicações clínicas (assinatura semelhante a BRCA1/2 → pode responder a inibidores de PARP).
Frameworks de Classificação de Variantes
Diretrizes ACMG/AMP
O padrão para classificação de germinativas (usadas em laboratórios de genética clínica) são as diretrizes ACMG/AMP de 2015. Elas usam uma combinação de critérios de evidência:
- Frequência populacional: A é comum na população geral? Comum = menos provavelmente patogênica.
- Predições computacionais: Ferramentas (SIFT, PolyPhen-2, AlphaMissense) preveem que é prejudicial?
- Estudos funcionais: Ela rompe a função proteica em ensaios experimentais?
- Segregação: A co-segrega com a doença em famílias afetadas?
- patogênicas conhecidas: É igual ou similar a uma patogênica previamente validada?
As evidências são combinadas para alcançar uma das 5 classificações (patogênica, provavelmente patogênica, VUS, provavelmente benigna, benigna).
OncoKB e Oncogenômica Clínica
Para somáticas (câncer), sistemas de classificação separados se aplicam. O OncoKB classifica pela sua acionabilidade clínica — se há um medicamento aprovado, um ensaio clínico ou apenas evidência biológica.
Uma BRAF V600E em melanoma é Nível 1 (terapia aprovada pela FDA: vemurafenibe, dabrafenibe). A mesma no colangiocarcinoma pode ser Nível 3A (evidência de ensaios clínicos, não aprovado). Cânceres diferentes, mesma , implicações clínicas diferentes.
O Formato de Arquivo VCF
Os dados de são armazenados em arquivos VCF (Variant Call Format). Este é o formato universal para dados de genômicas.
##fileformat=VCFv4.2
##reference=GRCh38
##FILTER=<ID=PASS,Description="All filters passed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read depth">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE1
chr17 7674220 rs28934578 G T . PASS AF=0.001; GT:DP 0/1:45
chr7 140453136 . A T 100 PASS SOMATIC; GT:DP 0/1:120
Campos-chave:
- CHROM/POS: e posição baseada em 1
- REF/ALT: de referência e alternativo
- QUAL: escore de qualidade da
- FILTER: PASS ou razão para filtragem
- INFO: anotações delimitadas por ponto e vírgula (frequência , efeito funcional, etc.)
- FORMAT/SAMPLE: dados de por amostra
O campo GT () codifica os : 0/0 = homozigoto de referência, 0/1 = heterozigoto, 1/1 = homozigoto alternativo. somáticas em tumores são frequentemente 0/1 com uma fração de (VAF) muito abaixo de 50% devido à heterogeneidade tumoral e contaminação de normais.
Ferramentas de anotação de VCF (ANNOVAR, VEP, SnpEff) adicionam efeitos funcionais previstos ao campo INFO.
Principais Bancos de Dados Populacionais
dbSNP: banco de dados do NCBI de conhecidas. Atribui números rs a comuns e observadas clinicamente. Uma no dbSNP não é necessariamente benigna — significa apenas que foi observada antes.
gnomAD (Banco de Dados de Agregação Genômica): ~800.000 exomas e ~76.000 inteiros de populações diversas. O banco de dados de frequência populacional mais importante. Uma observada em milhares de indivíduos do gnomAD quase certamente não é uma de doença de alta penetrância.
ClinVar: banco de dados do NCBI de associações -doença. Agrega classificações de laboratórios clínicos, pesquisadores e fontes curadas. A referência primária para interpretação clínica de .
COSMIC (Catálogo de Somáticas no Câncer): banco de dados de somáticas de de tumores. Contém >8 milhões de únicas de >40.000 amostras de tumor. Essencial para identificar oncogênicas e assinaturas mutacionais.
Entender esses bancos de dados — seu escopo, suas limitações e como consultá-los — é a da genômica clínica e da bioinformática do câncer. No Capítulo 6.5 trabalharemos diretamente com arquivos VCF em Python para realizar essa análise computacionalmente.
Mutações são alterações permanentes na sequência de DNA — substituições, inserções ou deleções de uma ou mais bases. A maioria das mutações é neutra ou reparada antes da expressão; uma pequena fração altera a função proteica. Mutações somáticas afetam apenas o indivíduo; mutações germinativas são hereditárias.
Uma mutação é um bit flip no código-fonte. Uma substituição sinônima é um no-op (mesmo aminoácido, códon diferente — como renomear uma variável em um binário compilado). Uma mutação missense é um erro de tipo: aminoácido diferente, função potencialmente quebrada. Um frameshift (inserção/deleção) é corrupção de toda a sequência downstream — cada códon após o ponto de edição está errado. Mutações nonsense são dereferências de ponteiro nulo: um códon de parada prematuro trunca a proteína.