Google approach untuk run production dengan reliability tinggi.
Site Reliability Engineering. Diciptakan Google. Treat ops sebagai software engineering problem. Otomasi everything yang dilakukan manual. Bridge dev dan ops dengan engineering rigour.
SLI (Indicator): metric kualitas service. SLO (Objective): target SLI. SLA (Agreement): kontrak dengan customer plus konsekuensi. Contoh: SLO uptime 99.9 persen (3 nine).
Konsep penting. Kalau SLO 99.9, ada 0.1 persen error budget. Boleh deploy aggressive selama dalam budget. Habis budget, freeze deploy untuk fokus reliability.
Toil: manual repetitive ops work. SRE harus less than 50 persen waktu untuk toil. Sisanya untuk engineering improvement. Otomasi paksa, tidak compromise.
Setiap insiden ada postmortem. Blameless. Fokus root cause, bukan blame individu. Action items concrete. Share lesson learned. Knowledge base untuk team.