Case Study

Studi Kasus Nalesha: Pasang Agent Tool Rate Limit Burst 2,4 Kali di Asisten E-commerce Parfum, Pangkas Sesi Gagal 39 Persen dan Selamatkan Konversi Flash Sale Rp 18 Juta di 2026

Vito Atmo
Vito Atmo·30 Mei 2026·0 kali dibaca·3 min baca
Studi Kasus Nalesha: Pasang Agent Tool Rate Limit Burst 2,4 Kali di Asisten E-commerce Parfum, Pangkas Sesi Gagal 39 Persen dan Selamatkan Konversi Flash Sale Rp 18 Juta di 2026

TL;DR: Nalesha, brand e-commerce parfum yang saya tangani, sering kehilangan konversi saat flash sale karena asisten produk throttle di puncak trafik. Setelah memasang burst 2,4 kali di rate limit asisten lewat token bucket, sesi gagal turun 39 persen dan konversi flash sale yang sebelumnya hilang Rp 18 juta per bulan berhasil diselamatkan. Eksperimen berjalan 31 hari per April 2026.

Sebelum eksperimen, asisten produk Nalesha sering memberi pesan "permintaan terlalu sering" di menit pertama flash sale. Logging Supabase menunjukkan trafik puncak melonjak 3 kali rate dasar selama 4 sampai 7 menit, lalu kembali normal. Rate limit tetap dengan kapasitas 1 kali rate dasar memicu throttle massal dan pelanggan kabur ke kompetitor.

Pola throttle ini menjelaskan kenapa flash sale Nalesha terus underperform meski iklannya bagus. Saya memutuskan mengukur lonjakan ini secara serius dan mendesain ruang burst yang aman tanpa membengkakkan kuota permanen.

Diagnosis: Trafik Puncak Singkat, Bukan Tinggi Rata-rata

MetrikRata-rata HarianPuncak Flash SaleSelisih
Sesi per menit18543 kali
Tool call per menit411323,2 kali
Rate limit aktual50 per menit50 per menitTidak elastis
Throttle rate0,4 persen23 persen57 kali lipat

Tanpa burst, sistem memperlakukan lonjakan singkat sebagai pelanggaran kuota dan langsung membatasi. Masalahnya bukan trafik tinggi, melainkan ketiadaan ruang nafas. Pola ini juga terjadi di agent tool quota saturation yang membuat kuota tampak penuh padahal hanya momentum sesaat.

Desain Burst: Token Bucket 2,4 Kali

Saya mengatur token bucket dengan parameter berikut:

yaml
rate dasar: 50 token per menit
burst capacity: 120 token (2,4 kali rate dasar)
refill: linear 50 token per menit

Bucket mulai penuh, terkuras saat puncak, lalu refill perlahan. Pola token bucket dipilih karena cocok untuk asisten chat real-time. Sebagai pembanding, leaky bucket lebih cocok untuk fetch terjadwal. Praktik standar Cloudflare Rate Limiting menjadi acuan untuk parameter burst.

Hasil 31 Hari

MetrikSebelumSesudahPerubahan
Throttle rate puncak23 persen4 persenTurun 19 poin
Sesi gagal11,2 persen6,8 persenTurun 39 persen
Konversi flash saleRp 27 jutaRp 45 jutaNaik Rp 18 juta
Biaya inferensiRp 8,1 jutaRp 8,4 jutaNaik Rp 300 ribu

Penambahan biaya inferensi Rp 300 ribu sangat kecil dibanding gain konversi Rp 18 juta. ROI eksperimen 60 kali lipat dalam satu bulan.

Pertanyaan Umum

Apakah burst 2,4 kali aman untuk semua jenis asisten?

Tidak. Untuk asisten dengan trafik stabil dan biaya inferensi tinggi, burst 1,5 kali lebih aman. Untuk asisten retail dengan momen puncak singkat, 2 sampai 3 kali kerap cocok.

Bagaimana memilih antara token bucket dan leaky bucket?

Token bucket bagus untuk chat real-time. Leaky bucket bagus untuk fetch terjadwal yang ingin di-smoothing.

Apakah burst menggantikan circuit breaker?

Tidak. Burst dan agent tool circuit budget bekerja di lapisan berbeda. Burst menampung lonjakan singkat, circuit breaker memutus aliran saat error sustained.

Penutup: Ukur Sebelum Tambah Kapasitas

Banyak tim langsung menaikkan rate limit permanen saat asisten dianggap lambat. Studi kasus Nalesha menunjukkan bahwa elastisitas jangka pendek jauh lebih hemat dibanding kapasitas permanen. Untuk merek e-commerce Indonesia yang mengandalkan flash sale, burst yang tepat sering jadi pembeda antara konversi tercapai atau hilang.

Bagikan

Artikel Terkait

#nalesha#rate-limit-burst#agent-tool#ecommerce#flash-sale#studi-kasus

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang