O genoma humano contém aproximadamente 20.000 genes codificantes de proteínas. Cada célula do seu corpo carrega todos eles. Uma célula hepática e um neurônio têm DNA idêntico. No entanto, eles têm aparência diferente, se comportam de forma diferente, produzem proteínas diferentes e têm propriedades funcionais dramaticamente distintas.
A diferença é a expressão gênica — quais genes estão ligados, em que níveis e em resposta a quais sinais. A expressão gênica não é um interruptor binário; é um processo contínuo e dinamicamente regulado que determina a identidade celular, media as respostas celulares ao ambiente e é a base do desenvolvimento de um único ovo fertilizado a um organismo de um trilhão de células.
O Que "Expressão" Significa
Quando dizemos que um gene está "expresso," queremos dizer que está sendo ativamente transcrito em RNA e (para genes codificantes de proteínas) que esse RNA está sendo traduzido em proteína. Quando dizemos que um gene está "regulado positivamente," queremos dizer que está produzindo mais RNA e/ou proteína do que o valor basal. "Regulado negativamente" significa menos.
Na prática, porque o RNA-seq mede a abundância de mRNA como proxy, "expressão gênica" em bioinformática geralmente se refere especificamente ao nível de mRNA. Esta é uma aproximação útil, mas não perfeita — os níveis de mRNA nem sempre refletem os níveis de proteína.
Fatores de Transcrição: Os Integradores de Sinal
O mecanismo primário para controlar quais genes são expressos são os fatores de transcrição (TFs) — proteínas que ligam sequências específicas de DNA e regulam a atividade da RNA polimerase.
Os TFs funcionam ligando-se a sequências regulatórias em promotores e enhancers de genes. Quando um TF se liga próximo a um promotor, ele pode:
- Recrutar a maquinaria geral de transcrição (ativadores)
- Bloquear o recrutamento da RNA polimerase (repressores)
- Estabilizar ou desestabilizar nucleossomos (remodeladores de cromatina)
- Recrutar enzimas modificadoras de histonas
Imagine seu genoma como um monorepo com 20.000 módulos. Cada módulo tem uma configuração de build que especifica: "construa este módulo se ENV_FÍGADO estiver definido E NÃO ENV_NEURÔNIO E ENV_OXIGÊNIO > 0,2." Os fatores de transcrição são as variáveis de ambiente. O repertório atual de TFs da célula determina quais configurações avaliam como verdadeiras e, portanto, quais genes são construídos.
O insight fundamental: os TFs são em si proteínas codificadas por genes. O sistema regulatório é regulado pelo mesmo mecanismo.
O genoma humano codifica aproximadamente 1.600 fatores de transcrição — cerca de 8% de todos os genes codificantes de proteínas. Muitos TFs funcionam em combinações: o código combinatório de TFs presentes determina o perfil de expressão gênica. Um gene específico do fígado pode exigir a ligação simultânea de HNF4α, FOXA2 e C/EBPα ao seu enhancer. Individualmente, nenhum deles é suficiente.
Arquitetura do Promotor
O promotor de um gene não é um simples interruptor liga/desliga. É um elemento regulatório com múltiplos módulos funcionais:
Promotor Central
A região mínima suficiente para o início da transcrição. Contém a caixa TATA (TATAAA, ~−30 do início), o elemento iniciador (Inr, no sítio +1) e/ou um elemento promotor downstream (DPE, ~+30). Esses elementos posicionam e orientam a RNA polimerase II.
Cerca de 20–30% dos promotores humanos contêm uma caixa TATA. A maioria usa o Inr ou outros elementos. Promotores "sem TATA" são comuns para genes housekeeping e frequentemente contêm ilhas CpG.
Promotor Proximal
Região de ~200 bp upstream do sítio de início contendo sítios de ligação de TF específicos que ajustam a atividade transcricional. Elementos comuns incluem caixas GC (ligam SP1), caixas CAAT e sítios de ligação de fatores de resposta ao cAMP (CRE).
Enhancers: Controle de Longo Alcance
Enhancers são elementos regulatórios que podem funcionar a grandes distâncias do gene que controlam — às vezes centenas de kilobases de distância — dobrando-se através do espaço 3D para contatar o promotor do gene.
Os enhancers são definidos por:
- Sítios de ligação de TF (sequência)
- Acessibilidade à cromatina (ATAC-seq open peaks)
- Modificações de histonas: H3K27ac (enhancers ativos), H3K4me1 (enhancers poised)
- Marcação de RNA não codificante (enhancer RNA ou eRNA)
O loop 3D entre um enhancer e seu promotor alvo é mediado por complexos proteicos incluindo o complexo Mediador e cohesinas. Essa organização 3D do genoma é detectável por técnicas como Hi-C (captura de conformação de cromatina).
Sinalização para Transcrição
Muitos TFs são eles próprios regulados por vias de sinalização. Quando um fator de crescimento se liga a seu receptor na superfície celular, desencadeia uma cascata que pode:
- Ativar uma quinase que fosforila um TF, mudando sua localização ou atividade
- Liberar um TF inibido de um complexo repressivo
- Induzir a síntese de novos TFs via expressão gênica imediata precoce
O ciclo: sinal extracelular → proteína de membrana → sinalização intracelular → TF modificado → mudança na expressão gênica → resposta celular. Cada etapa amplifica e integra informações.
RNA-seq: Medindo a Expressão em Escala
O RNA-seq (sequenciamento de RNA) mede a abundância de mRNA de todo o transcriptoma em um único experimento. O fluxo de trabalho básico:
Células ou tecido
↓ Extrair RNA total
↓ Selecionar mRNA (via esferas poli-A) ou deplecionar rRNA
↓ Fragmentar RNA → síntese de cDNA → adicionar adaptadores sequenciamento
↓ Sequenciamento de extremidade emparelhada (150 pb cada extremidade)
↓ Controle de qualidade (FastQC)
↓ Aparamento (Trimmomatic, Cutadapt)
↓ Alinhamento ao genoma de referência (STAR, HISAT2)
↓ Contagem de reads por gene (HTSeq, featureCounts)
↓ Normalização (DESeq2, edgeR, limma-voom)
↓ Expressão diferencial / análise downstream
A saída é uma matriz de contagem: genes × amostras, onde cada valor é o número de reads mapeados para aquele gene naquela amostra.
Normalização: Tornando as Amostras Comparáveis
A contagem bruta de reads não é diretamente comparável entre amostras porque diferentes amostras têm profundidades de sequenciamento diferentes. Métodos de normalização comuns:
CPM (Contagens Por Milhão): divide pelo total de reads da amostra, multiplica por 10⁶. Corrige a profundidade de sequenciamento. Não corrige comprimento do gene.
TPM (Transcritos Por Milhão): normaliza pelo comprimento do gene e depois pela profundidade de sequenciamento. Soma TPM de todas as amostras é sempre 10⁶ — permite comparação direta entre amostras.
VST/rlog (DESeq2): transformações estabilizadoras de variância — log-transformam os dados de forma que genes com baixa contagem não dominem a variância. Melhor para PCA e visualização.
- Para visualização e comparação entre amostras → TPM
- Para expressão diferencial com DESeq2 ou edgeR → use contagens brutas (as ferramentas fazem sua própria normalização)
- Para PCA e controle de qualidade → VST ou rlog do DESeq2
- Nunca use RPKM/FPKM para comparação entre amostras — matematicamente inconsistente
Expressão Específica de Tipo Celular
Cada tipo celular possui um perfil de expressão único. Bancos de dados como:
- GTEx: expressão de >50 tecidos humanos de ~1000 doadores
- Human Cell Atlas: transcriptômica de célula única de dezenas de tecidos
- ENCODE: dados de TF e cromatina em >1000 linhagens celulares
permitem comparar padrões de expressão entre tecidos e identificar genes específicos de tecido. Genes específicos de tecido são candidatos a biomarcadores de diagnóstico (sua presença no sangue indica dano ao tecido de origem).
Análise de Enriquecimento de Vias
Depois de identificar genes diferencialmente expressos, o próximo passo é entender quais processos biológicos são afetados. A GSEA (Análise de Enriquecimento de Conjunto de Genes) testa se um conjunto predefinido de genes (uma via, um processo biológico) está enriquecido na parte superior ou inferior de uma lista de genes classificados por mudança de expressão.
Diferentemente de ORA (análise de super-representação), que usa apenas os genes significativos, a GSEA usa todos os genes classificados — detecta enriquecimento sutil em toda a via mesmo quando nenhum gene único passa no limiar de significância.
Ferramentas: GSEApy (Python), fgsea (R), Enrichr (web), clusterProfiler (R).
Por Que a Expressão Gênica É Central para a Bioinformática
Praticamente toda análise de bioinformática está ligada à expressão gênica:
- Estudos GWAS identificam variantes; os genes próximos são candidatos de expressão
- Dados de célula única revelam heterogeneidade que as médias em massa escondem
- Biomarcadores clínicos frequentemente são genes diferencialmente expressos na doença vs. normal
- Alvos de fármacos precisam ser expressos no tecido relevante
- O desenvolvimento e a diferenciação são programas de expressão gênica de célula inteira
A expressão gênica é o elo entre sequência de DNA e fenótipo celular.