Digital Transformation
LLM Token Budget Arbitration
TL;DR: LLM Token Budget Arbitration adalah kebijakan yang membagi alokasi token konteks antar tahap pipeline LLM, biasanya 10 persen sistem, 50 persen retrieval, 20 persen riwayat, 20 persen output. Tanpa arbitrasi, satu tahap rakus bisa memakan kuota tahap lain dan menurunkan kualitas jawaban. Praktik ini standar di pipeline RAG produksi.
Apa itu LLM Token Budget Arbitration?
LLM Token Budget Arbitration adalah lapisan kontrol yang menjamin pembagian adil alokasi token konteks ke setiap tahap pipeline LLM. Pipeline RAG modern punya minimal empat konsumen token: prompt sistem, dokumen hasil retrieval, riwayat percakapan, dan ruang output yang dipesan. Saat salah satu konsumen membengkak, misal retrieval mengirim 32 dokumen, kuota untuk riwayat dan output bisa habis dan model dipaksa memotong jawaban di tengah jalan.
Arbitrasi bekerja seperti scheduler. Setiap tahap diberi quota tetap atau quota dinamis berbasis prioritas. Saat satu tahap meminta lebih dari kuota, arbiter melakukan kompresi, ringkasan, atau pengurangan jumlah item. Mekanisme ini berhubungan erat dengan LLM Context Compaction Ratio, tetapi fokusnya bukan pada rasio kompresi, melainkan pada distribusi kuota.
Pola Pembagian Umum
| Tahap | Quota Default | Strategi Saat Over |
|---|---|---|
| System prompt | 8 sampai 12 persen | Cache prefix, jangan dipotong |
| Retrieval | 45 sampai 55 persen | Turunkan top-k atau ringkas dokumen |
| Riwayat | 15 sampai 25 persen | Sliding window atau rolling summary |
| Output reserved | 15 sampai 25 persen | Tetap, jangan dimakan tahap lain |
Pola di atas saya pakai di pipeline Atmo LMS dan menghasilkan rasio konteks pemotongan jauh di bawah 5 persen, bahkan saat sesi berlangsung 30 giliran. Pendekatan ini sejalan dengan Agent Tool Budget Arbitration tetapi diaplikasikan ke level token, bukan level pemanggilan tool.
Kenapa Penting?
Tanpa arbitrasi, ada dua kegagalan klasik. Pertama, jawaban model terpotong karena ruang output dimakan retrieval. Kedua, biaya inferensi membengkak karena tahap yang seharusnya ringan menggunakan token jauh lebih banyak dari proporsinya. Marketer dan developer yang menjalankan pipeline RAG di Next.js Supabase perlu menulis lapisan arbitrasi sebagai middleware sebelum panggilan model, supaya kontrol biaya dan kualitas jawaban tidak diserahkan pada keberuntungan.
Pertanyaan Umum
Apakah arbitrasi statis cukup?
Untuk pipeline awal, ya. Setelah trafik bertambah, arbitrasi dinamis berbasis prioritas dokumen dan panjang riwayat memberi efisiensi lebih baik.
Berapa quota minimum untuk output?
Sediakan minimal 15 persen total context window untuk output. Lebih kecil dari itu, model rentan memotong jawaban di pertengahan paragraf.
Istilah Terkait