Digital Transformation
Agent Tool Warmup Budget
TL;DR: Agent Tool Warmup Budget adalah alokasi waktu dan kuota panggilan untuk memanaskan tool agent sebelum trafik produksi masuk. Tujuannya menahan p95 latency saat sesi pertama, sekaligus mencegah cold start memakan biaya inferensi yang sebenarnya bisa di-amortisasi lewat warmup berjadwal.
Apa itu Agent Tool Warmup Budget?
Tool agent (search, retriever, code executor) sering punya cold start 800 ms sampai 2 detik. Sesi pertama setelah idle terkena penalti latency penuh. Warmup Budget mengalokasikan jumlah panggilan "dummy" terjadwal yang menjaga tool tetap hangat. Anggap ini seperti prefetch budget tapi targetnya proses internal tool, bukan data yang akan dipakai.
Analoginya: mesin diesel yang dipanaskan sebelum perjalanan jauh. Lima menit pemanasan menghemat masalah di kilometer pertama.
Cara Kerja Warmup
| Tahap | Aktivitas | Output |
|---|---|---|
| 1. Pola trafik | Identifikasi jam puncak harian | Kurva beban |
| 2. Budget assign | Alokasi 3 sampai 5 panggilan/15 menit per tool | Quota tabel |
| 3. Trigger cron | Jalankan dummy call sebelum jam puncak | Tool aktif |
| 4. Verify | Cek p95 latency sesi pertama | Skor warm |
| 5. Tune | Naikkan/turunkan budget per 7 hari | Budget final |
Budget realistis 3 sampai 5 panggilan per 15 menit menjaga keseimbangan biaya dan latency. Lebih dari 5 cenderung boros inferensi. Kurang dari 3 sering tidak cukup menghangatkan cache internal tool.
Kenapa Penting?
Untuk asisten konsultasi Atmo LMS dan booking Vetmo, sesi pertama tiap pagi sering menentukan apakah pengguna lanjut atau bounce. Warmup budget 4 panggilan per 15 menit di jam 6 sampai 9 pagi memangkas p95 latency sesi pertama dari 1,8 detik ke 720 ms. Riset internal saya dari 6 proyek klien menunjukkan range 600 sampai 800 ms p95 setelah warmup adalah sweet spot untuk retensi sesi di atas 70 persen.
Dokumentasi Vercel Edge Functions menyebut cold start sebagai variabel utama performance. Warmup adalah mitigasi paling murah sebelum opsi lain seperti provisioned concurrency.
Pertanyaan Umum
Apakah warmup boros biaya inferensi?
Tidak signifikan jika budget dijaga. Untuk pipeline skala UMKM, biaya warmup biasanya di bawah 5 persen total inferensi bulanan.
Bedanya dengan provisioned concurrency?
Provisioned concurrency mengunci kapasitas server. Warmup budget mengunci kebiasaan pemanggilan. Warmup lebih murah dan fleksibel untuk pola trafik berfluktuasi.