Observability layer 1 metrics. Time-series data, alerting, dashboards.
Tidak bisa improve apa yang tidak diukur. Production tanpa monitoring = blind. Detect issue sebelum customer complain. Capacity planning. Performance optimization. Compliance.
Time-series database open source. Pull-based: scrape metric endpoint /metrics. Multidimensional dengan label. Query language PromQL powerful. Lahir dari SoundCloud, kini di CNCF.
Visualization tool untuk Prometheus dan banyak source lain. Dashboard customizable. Library template ribuan. Alerting integrate dengan PagerDuty, Slack. UI bagus dan profesional.
Latency (durasi request). Traffic (request per second). Errors (rate of failure). Saturation (resource fullness). Dari Google SRE book. Cover 80 persen monitoring needs.
Define rule: if metric exceed threshold, alert. Alert routing ke team yang tepat. Severity level. Avoid alert fatigue (alasin yang penting saja). Runbook untuk setiap alert.