Case Study

Studi Kasus Nalesha: Pasang Agent Tool Rate Limit Burst 2,4 Kali di Asisten E-commerce Parfum, Pangkas Sesi Gagal 39 Persen dan Selamatkan Konversi Flash Sale Rp 18 Juta di 2026

Vito Atmo·30 Mei 2026·0 kali dibaca·3 min baca

Studi Kasus Nalesha: Pasang Agent Tool Rate Limit Burst 2,4 Kali di Asisten E-commerce Parfum, Pangkas Sesi Gagal 39 Persen dan Selamatkan Konversi Flash Sale Rp 18 Juta di 2026

TL;DR: Nalesha, brand e-commerce parfum yang saya tangani, sering kehilangan konversi saat flash sale karena asisten produk throttle di puncak trafik. Setelah memasang burst 2,4 kali di rate limit asisten lewat token bucket, sesi gagal turun 39 persen dan konversi flash sale yang sebelumnya hilang Rp 18 juta per bulan berhasil diselamatkan. Eksperimen berjalan 31 hari per April 2026.

Sebelum eksperimen, asisten produk Nalesha sering memberi pesan "permintaan terlalu sering" di menit pertama flash sale. Logging Supabase menunjukkan trafik puncak melonjak 3 kali rate dasar selama 4 sampai 7 menit, lalu kembali normal. Rate limit tetap dengan kapasitas 1 kali rate dasar memicu throttle massal dan pelanggan kabur ke kompetitor.

Pola throttle ini menjelaskan kenapa flash sale Nalesha terus underperform meski iklannya bagus. Saya memutuskan mengukur lonjakan ini secara serius dan mendesain ruang burst yang aman tanpa membengkakkan kuota permanen.

Diagnosis: Trafik Puncak Singkat, Bukan Tinggi Rata-rata

Metrik	Rata-rata Harian	Puncak Flash Sale	Selisih
Sesi per menit	18	54	3 kali
Tool call per menit	41	132	3,2 kali
Rate limit aktual	50 per menit	50 per menit	Tidak elastis
Throttle rate	0,4 persen	23 persen	57 kali lipat

Tanpa burst, sistem memperlakukan lonjakan singkat sebagai pelanggaran kuota dan langsung membatasi. Masalahnya bukan trafik tinggi, melainkan ketiadaan ruang nafas. Pola ini juga terjadi di agent tool quota saturation yang membuat kuota tampak penuh padahal hanya momentum sesaat.

Desain Burst: Token Bucket 2,4 Kali

Saya mengatur token bucket dengan parameter berikut:

yaml

rate dasar: 50 token per menit
burst capacity: 120 token (2,4 kali rate dasar)
refill: linear 50 token per menit

Bucket mulai penuh, terkuras saat puncak, lalu refill perlahan. Pola token bucket dipilih karena cocok untuk asisten chat real-time. Sebagai pembanding, leaky bucket lebih cocok untuk fetch terjadwal. Praktik standar Cloudflare Rate Limiting menjadi acuan untuk parameter burst.

Hasil 31 Hari

Metrik	Sebelum	Sesudah	Perubahan
Throttle rate puncak	23 persen	4 persen	Turun 19 poin
Sesi gagal	11,2 persen	6,8 persen	Turun 39 persen
Konversi flash sale	Rp 27 juta	Rp 45 juta	Naik Rp 18 juta
Biaya inferensi	Rp 8,1 juta	Rp 8,4 juta	Naik Rp 300 ribu

Penambahan biaya inferensi Rp 300 ribu sangat kecil dibanding gain konversi Rp 18 juta. ROI eksperimen 60 kali lipat dalam satu bulan.

Pertanyaan Umum

Apakah burst 2,4 kali aman untuk semua jenis asisten?

Tidak. Untuk asisten dengan trafik stabil dan biaya inferensi tinggi, burst 1,5 kali lebih aman. Untuk asisten retail dengan momen puncak singkat, 2 sampai 3 kali kerap cocok.

Bagaimana memilih antara token bucket dan leaky bucket?

Token bucket bagus untuk chat real-time. Leaky bucket bagus untuk fetch terjadwal yang ingin di-smoothing.

Apakah burst menggantikan circuit breaker?

Tidak. Burst dan agent tool circuit budget bekerja di lapisan berbeda. Burst menampung lonjakan singkat, circuit breaker memutus aliran saat error sustained.

Penutup: Ukur Sebelum Tambah Kapasitas

Banyak tim langsung menaikkan rate limit permanen saat asisten dianggap lambat. Studi kasus Nalesha menunjukkan bahwa elastisitas jangka pendek jauh lebih hemat dibanding kapasitas permanen. Untuk merek e-commerce Indonesia yang mengandalkan flash sale, burst yang tepat sering jadi pembeda antara konversi tercapai atau hilang.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang