Case Study

Studi Kasus Ryandi Pratama: Pasang Agent Tool Saturation Budget 6 Panggilan per Worker di Asisten Coaching, Tahan p95 Latency 1,1 Detik Saat Trafik Naik 3x dan Selamatkan Konversi Rp 9,6 Juta per Bulan dalam 31 Hari di 2026

A
Admin·1 Juni 2026·0 kali dibaca·4 min baca
Studi Kasus Ryandi Pratama: Pasang Agent Tool Saturation Budget 6 Panggilan per Worker di Asisten Coaching, Tahan p95 Latency 1,1 Detik Saat Trafik Naik 3x dan Selamatkan Konversi Rp 9,6 Juta per Bulan dalam 31 Hari di 2026

TL;DR: Pada April 2026, asisten coaching Ryandi Pratama mengalami kebocoran konversi saat trafik melonjak 3 kali lipat. Pemasangan Agent Tool Saturation Budget 6 panggilan per worker menahan p95 latency di 1,1 detik dan menyelamatkan konversi Rp 9,6 juta per bulan dalam 31 hari.

Saat membantu Ryandi Pratama meluncurkan asisten coaching berbasis LLM di Next.js Supabase, kami melihat pola yang sering muncul di pipeline agent Indonesia. Saat trafik normal, p95 latency stabil di 600 ms. Saat trafik naik 3 kali lipat di window 17.00 sampai 21.00, p95 melompat ke 4,2 detik dan 19 persen sesi gagal.

Akar masalahnya bukan model lambat, tapi queue tool calls yang menumpuk tanpa batas.

Konteks Awal

Ryandi menjalankan asisten coaching yang melayani 280-340 sesi per hari, dengan window puncak di sore hari. Pipeline pakai 3 tools utama: knowledge retrieval, schedule lookup, dan payment quote. Tanpa pembatasan queue, satu sesi lambat menyeret sesi lain di worker yang sama.

Data baseline minggu pertama April 2026:

MetrikSebelum
p95 latency normal620 ms
p95 latency puncak4.180 ms
Sesi gagal puncak19 persen
Konversi hilang puncakRp 11,4 juta per bulan

Framework Kalibrasi

Kami mengukur saturasi queue per worker selama 5 hari. Pola yang muncul: di atas 6 panggilan aktif per worker, p95 latency naik eksponensial. Berdasarkan praktik yang saya pakai di proyek Vetmo dan Atmo LMS, ambang 6 panggilan ini ternyata konsisten untuk profil tool LLM dengan latency 300-800 ms.

Langkah eksekusi:

  1. Pasang queue counter per worker di middleware Next.js
  2. Set saturation threshold 6 panggilan
  3. Reject request baru dengan kode 503 + retry-after 2 detik
  4. Kirim sinyal recovery ke client agar tidak hammer endpoint
  5. Pasang Agent Tool Jitter Budget 180 ms untuk mencegah thundering herd saat recovery

Kombinasi ini juga mendukung LLM Context Eviction Policy yang sudah terpasang sebelumnya untuk mencegah context bloat.

Studi Kasus: Hasil 31 Hari

Setelah kalibrasi selesai pada 18 April 2026, tim memantau metrik selama 31 hari:

MetrikSebelumSesudah
p95 latency puncak4.180 ms1.120 ms
Sesi gagal puncak19 persen4 persen
Konversi diselamatkan-Rp 9,6 juta per bulan
Overhead biaya-2 persen inferensi

Catatan penting: angka konversi diselamatkan dihitung dari rata-rata revenue per sesi yang berhasil dikalikan delta sesi gagal. Range bisa bervariasi tergantung profil tool dan beban kerja, tapi pola pemulihan p95 cukup konsisten di tiga proyek yang kami pegang.

Berdasarkan pengalaman 7 tahun menangani pipeline agent Indonesia, sebagian besar kebocoran konversi di jam puncak bukan masalah model, tapi queue management. Referensi praktis bisa dilihat di dokumentasi Vercel tentang serverless concurrency.

Pertanyaan Umum

Apakah saturation budget cocok untuk semua jenis asisten?

Cocok untuk asisten yang punya tool LLM call dengan latency 300 ms ke atas dan trafik fluktuatif. Untuk pipeline DB-heavy, lebih relevan rate limiting di query level.

Berapa biaya implementasi?

Implementasi murni middleware di Next.js. Tanpa infrastruktur tambahan, overhead biaya 1-3 persen inferensi.

Bagaimana mengukur threshold yang tepat?

Catat queue depth dan p95 latency selama 5-7 hari di kondisi normal dan puncak. Cari titik infleksi di mana latency mulai naik eksponensial.

Penutup

Kalibrasi saturation budget bukan optimasi performa abstrak. Untuk Ryandi, ini perbedaan antara kehilangan Rp 11 juta per bulan di jam puncak atau menyelamatkannya. Untuk marketer yang menjalankan asisten AI di funnel konversi, mengabaikan queue management adalah membiarkan revenue bocor di window paling produktif.

Pelajari konsep dasarnya di Agent Tool Budget lalu lanjutkan ke saturation budget untuk hardening produksi.

Bagikan

Artikel Terkait

#agent-tool-saturation-budget#case-study#next-js#llm-pipeline#2026

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang