Digital Transformation
LLM Context Handoff Budget
TL;DR: LLM Context Handoff Budget adalah kuota token konteks yang boleh dibawa saat satu agent menyerahkan sesi ke agent lain, umumnya 1.500 sampai 3.000 token. Budget yang terlalu kecil bikin agent penerima kehilangan konteks dan ulang pertanyaan. Budget yang terlalu besar membengkakkan biaya inferensi dan memperlambat respons.
Apa itu LLM Context Handoff Budget?
LLM Context Handoff Budget mengatur seberapa banyak konteks yang boleh diteruskan saat agent A menyerahkan sesi ke agent B di pipeline multi-agent. Konsep ini mengontrol trade-off antara continuity dan biaya. Berkerabat dengan LLM Context Compaction Ratio dan Agent Tool Handoff Latency, tetapi fokus di volume token yang diserahkan.
Analoginya seperti briefing sebelum pergantian shift di customer service. Kalau briefing cuma 30 detik (budget kecil), shift baru kehilangan konteks dan customer kesal karena harus ulang cerita. Kalau briefing 30 menit (budget besar), shift lama tidak pulang dan biaya operasional naik.
Komposisi Handoff yang Sehat
| Komponen | Porsi token | Tujuan |
|---|---|---|
| Summary sesi | 40 persen | Tangkap intent + state utama |
| User profile + preference | 25 persen | Konteks personalisasi |
| Tool call history relevan | 25 persen | Hindari ulang tool yang sama |
| Pending action | 10 persen | Kontinuitas eksekusi |
Praktik standar di pipeline RAG yang saya pakai untuk client mengompres 8.000 token konteks ke 2.400 token handoff (rasio 3,3:1) tanpa kehilangan kualitas respons di sesi penerima.
Kenapa Penting?
Multi-agent pipeline yang dipakai marketer Indonesia (misalnya asisten booking yang serahkan ke asisten pembayaran) sering boros token karena handoff tidak diatur. Tanpa budget eksplisit, agent A cenderung kirim seluruh transkrip ke agent B (10.000+ token), bikin biaya inferensi naik 3 sampai 5 kali lipat. Budget 2.400 token sudah cukup untuk 90 persen kasus.
Pertanyaan Umum
Apa beda Handoff Budget dengan Compaction Ratio?
Compaction Ratio mengukur rasio token sebelum vs sesudah kompresi konteks. Handoff Budget mengukur kuota maksimum saat handoff. Compaction adalah teknik, Budget adalah batas.
Apakah Handoff Budget berlaku untuk single-agent juga?
Tidak. Single-agent pakai [LLM Context Window Utilization Rate](/glosarium/llm-context-window-utilization-rate). Handoff Budget khusus skenario multi-agent.
Istilah Terkait