Digital Transformation
Agent Tool Prefetch Stall Rate
TL;DR: Agent tool prefetch stall rate adalah persentase sesi agent yang prefetch tool-nya gagal selesai sebelum dipanggil, sehingga orchestrator harus menjalankan fetch sinkron yang menambah latency. Stall rate sehat berada di bawah 8 persen, dan di atas 15 persen biasanya menandakan budget prefetch atau cache TTL perlu disesuaikan.
Apa itu Agent Tool Prefetch Stall Rate?
Agent tool prefetch stall rate adalah metrik observabilitas yang melengkapi agent tool prefetch budget. Saat sebuah sesi agent dimulai, orchestrator memuat hasil tool yang kemungkinan dipanggil ke cache lokal. Kalau prefetch belum tuntas pada saat tool benar-benar dipanggil, agent harus melakukan fetch sinkron, dan latency p95 sesi melonjak. Stall rate mengukur seberapa sering ini terjadi.
Cara Hitung
Rumusnya sederhana, jumlah sesi dengan setidaknya satu stall dibagi total sesi yang memakai prefetch dalam jendela waktu.
| Stall Rate | Status | Tindakan |
|---|---|---|
| Di bawah 5 persen | Sehat | Pertahankan budget |
| 5 sampai 15 persen | Perlu pengamatan | Audit TTL dan urutan prefetch |
| Di atas 15 persen | Kritikal | Naikkan budget atau ubah strategi prediksi |
Kenapa Penting?
Untuk produk SaaS Indonesia yang membungkus LLM dengan banyak tool eksternal (booking, payment, search), stall rate tinggi langsung memukul SLA latency. Dari pengalaman Vito Atmo memasang prefetch di asisten Vetmo (pet care booking), turun dari 22 persen stall ke 6 persen memangkas p95 sesi sebesar 38 persen dan menghemat panggilan API sinkron sekitar Rp 2,1 juta per bulan. Praktik observabilitas standar yang lebih luas dapat dilihat di dokumentasi OpenTelemetry.
Pertanyaan Umum
Apakah prefetch selalu menurunkan latency?
Tidak. Kalau prefetch terlalu agresif, ia justru menghabiskan rate limit tool dan menimbulkan stall di sesi lain. Budget dan prediksi yang akurat penting.
Bagaimana cara mendeteksi stall di production?
Tambahkan span OpenTelemetry untuk fase prefetch dan fase tool-call. Hitung sesi yang fase tool-call-nya menunggu prefetch belum selesai.
Istilah Terkait