Digital Transformation
Error Budget
Error budget adalah selisih antara target SLO dan keandalan 100 persen, dinyatakan sebagai jatah downtime yang boleh terjadi sebelum tim wajib menghentikan rilis fitur baru.
TL;DR: Error budget adalah jatah kegagalan yang boleh terjadi dalam periode tertentu, dihitung sebagai 100 persen dikurangi target SLO. Saat budget habis, tim wajib mengerem rilis fitur dan fokus pada perbaikan keandalan, bukan menambah resiko baru.
Apa itu Error Budget?
Error budget adalah konsep dari Site Reliability Engineering yang menyeimbangkan inovasi dengan keandalan. Jika SLO dipasang 99,9 persen uptime per bulan, maka error budget yang tersedia adalah 0,1 persen, sekitar 43 menit downtime. Selama budget belum habis, tim engineering bebas push fitur baru dengan risiko yang wajar. Praktik ini erat dengan observability dan chaos engineering.
Cara Hitung Error Budget
| Target SLO | Budget per bulan (30 hari) | Budget per kuartal |
|---|---|---|
| 99,9% | 43 menit 49 detik | 2 jam 11 menit |
| 99,95% | 21 menit 54 detik | 1 jam 5 menit |
| 99,99% | 4 menit 22 detik | 13 menit |
Kenapa Penting?
Error budget membuat keputusan rilis menjadi data-driven, bukan politik. Saat budget tersisa banyak, tim produk berhak mendorong fitur agresif. Saat budget hampir habis, tim engineering punya argumen kuat untuk menunda rilis dan memperbaiki bug. Per April 2026, banyak startup Indonesia masih mengandalkan rasa "agak sering down belakangan ini" tanpa angka, yang membuat percakapan engineering vs produk berakhir tanpa kesepakatan. Untuk pendalaman, lihat Google SRE Workbook tentang Implementing SLOs.
Pertanyaan Umum
Apa yang terjadi kalau error budget habis?
Praktik standar: hentikan rilis fitur non-kritikal sampai budget pulih. Tim fokus pada perbaikan stabilitas, postmortem, dan otomasi.
Apakah error budget dipakai di tim non-SRE?
Ya. Banyak tim produk dan QA memakai konsep ini sebagai kebijakan rilis, bukan hanya tim infra.