Monitoramento e observabilidade: como saber que seu sistema está saudável

Seu sistema está rodando, mas está saudável? Sem monitoramento adequado, você só descobre problemas quando o cliente reclama — e a essa altura, já perdeu receita e confiança. Observabilidade é o que separa operações amadoras de profissionais.

Os três pilares da observabilidade

Logs: Registros textuais de eventos que aconteceram. “Usuário X fez login às 14:23”, “Query Y demorou 5 segundos”, “Erro ao processar pagamento: timeout”. Logs dizem O QUE aconteceu.

Métricas: Valores numéricos ao longo do tempo. CPU usage, response time, request rate, error rate, queue depth. Métricas dizem QUANTO e QUANDO algo mudou.

Traces: O caminho completo de uma requisição através do sistema. Do request HTTP, passando pelo API gateway, microserviço A, banco de dados, cache, até a resposta. Traces dizem ONDE o problema está.

Métricas essenciais (Golden Signals)

O Google definiu os Four Golden Signals que todo sistema deve monitorar:

Latência: Quanto tempo as requisições levam. Monitore P50, P90, P95 e P99 — a média esconde problemas. Se o P99 é 5 segundos, 1 em cada 100 usuários está tendo uma experiência péssima.

Tráfego: Volume de requisições. Identifica picos, tendências e ajuda no capacity planning.

Erros: Taxa de requisições que falham. 5xx do servidor são críticos, 4xx do cliente podem indicar problemas de UX ou API consumers com bugs.

Saturação: O quão cheio seu sistema está. CPU próxima de 100%, memória esgotando, disk I/O no limite, conexões de banco saturadas.

Stack de ferramentas

Para startups com budget limitado: Grafana Cloud (tier gratuito generoso) para métricas e dashboards, Sentry para error tracking (com contexto rico), e Loki para logs. Essa combinação cobre 90% das necessidades.

Para maior maturidade: Datadog ou New Relic oferecem a plataforma completa (logs + métricas + traces + APM) num único lugar. São mais caros, mas a correlação automática entre os três pilares economiza muito tempo de debugging.

Alertas eficazes

Alertas demais são ignorados (alert fatigue). Alertas de menos deixam problemas passarem. A regra: alerte apenas sobre condições que exigem ação imediata. Se o alerta dispara e a resposta é “vou olhar amanhã”, ele não deveria ser um alerta — deveria ser um item no dashboard.

Use severity levels: Critical (acordar alguém às 3h), Warning (olhar na próxima hora de trabalho), Info (revisão semanal). E sempre inclua no alerta: o que está errado, o impacto estimado, e o runbook com passos de investigação.

Cultura de observabilidade

Observabilidade não é responsabilidade exclusiva de DevOps. Desenvolvedores devem instrumentar seu código com logs estruturados e métricas de negócio. Product managers devem ter dashboards de métricas de produto. A organização inteira deve ter visibilidade sobre a saúde do sistema.

O investimento em observabilidade é como seguro: parece desnecessário até o dia que salva seu negócio. E esse dia sempre chega.