Digital Transformation
LLM Context Warm Pool Budget
TL;DR: LLM Context Warm Pool Budget adalah jumlah konteks LLM yang disiapkan agent sebelum sesi baru masuk, agar cold start tidak menyebabkan p95 latency melonjak. Range praktis di proyek Indonesia 2026: 4-12 konteks per pool, di-refresh tiap 90-180 detik.
Apa itu LLM Context Warm Pool Budget?
Tiap kali sesi baru dimulai, agent harus muat embeddings, tools manifest, dan baseline konteks. Proses ini bisa makan 400-1200 ms. Pada lonjakan trafik, cold start ini menumpuk dan p95 latency rusak. Warm pool menyiapkan konteks siap pakai di kapasitas tertentu, jadi sesi baru langsung dapat slot panas.
Konsep ini melengkapi LLM Context Pinning Budget yang menjaga konteks penting tetap aktif, sementara warm pool fokus pada pre-load untuk sesi baru.
Cara Kerja
| Komponen | Fungsi |
|---|---|
| Pool size | Jumlah konteks pre-loaded (mis. 8) |
| Refresh interval | Frekuensi rotasi (mis. 120 detik) |
| Eviction trigger | Buang konteks paling lama tidak terpakai |
| Demand sensor | Ukur saturasi, naikkan pool size jika queue panjang |
Kenapa Penting?
Dalam audit Atmo LMS, pemasangan warm pool budget 8 konteks dengan refresh 120 detik memangkas p95 cold start latency dari 980 ms ke 220 ms saat trafik puncak. Sesi gagal akibat timeout turun dari 14 ke 3 persen.
Untuk marketer Indonesia yang menjalankan asisten interaktif di jam ramai, biaya pool ini setara overhead 8-12 persen inferensi, tapi menyelamatkan konversi di window paling kritis. Lihat juga LLM Context Shard Affinity untuk strategi peletakan konteks.
Pertanyaan Umum
Apa risiko pool terlalu besar?
Biaya inferensi naik linear dengan pool size. Pool 20 konteks pada trafik rendah membuang 60 persen biaya tanpa manfaat. Kalibrasi dinamis berdasarkan demand.
Apakah warm pool sama dengan cache?
Tidak. Cache menyimpan hasil komputasi lama. Warm pool menyiapkan kapasitas baru yang siap menerima konteks sesi baru.
Istilah Terkait