Digital Transformation

LLM Token Budget Arbitration

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·3 min baca

TL;DR: LLM Token Budget Arbitration adalah kebijakan yang membagi alokasi token konteks antar tahap pipeline LLM, biasanya 10 persen sistem, 50 persen retrieval, 20 persen riwayat, 20 persen output. Tanpa arbitrasi, satu tahap rakus bisa memakan kuota tahap lain dan menurunkan kualitas jawaban. Praktik ini standar di pipeline RAG produksi.

Apa itu LLM Token Budget Arbitration?

LLM Token Budget Arbitration adalah lapisan kontrol yang menjamin pembagian adil alokasi token konteks ke setiap tahap pipeline LLM. Pipeline RAG modern punya minimal empat konsumen token: prompt sistem, dokumen hasil retrieval, riwayat percakapan, dan ruang output yang dipesan. Saat salah satu konsumen membengkak, misal retrieval mengirim 32 dokumen, kuota untuk riwayat dan output bisa habis dan model dipaksa memotong jawaban di tengah jalan.

Arbitrasi bekerja seperti scheduler. Setiap tahap diberi quota tetap atau quota dinamis berbasis prioritas. Saat satu tahap meminta lebih dari kuota, arbiter melakukan kompresi, ringkasan, atau pengurangan jumlah item. Mekanisme ini berhubungan erat dengan LLM Context Compaction Ratio, tetapi fokusnya bukan pada rasio kompresi, melainkan pada distribusi kuota.

Pola Pembagian Umum

TahapQuota DefaultStrategi Saat Over
System prompt8 sampai 12 persenCache prefix, jangan dipotong
Retrieval45 sampai 55 persenTurunkan top-k atau ringkas dokumen
Riwayat15 sampai 25 persenSliding window atau rolling summary
Output reserved15 sampai 25 persenTetap, jangan dimakan tahap lain

Pola di atas saya pakai di pipeline Atmo LMS dan menghasilkan rasio konteks pemotongan jauh di bawah 5 persen, bahkan saat sesi berlangsung 30 giliran. Pendekatan ini sejalan dengan Agent Tool Budget Arbitration tetapi diaplikasikan ke level token, bukan level pemanggilan tool.

Kenapa Penting?

Tanpa arbitrasi, ada dua kegagalan klasik. Pertama, jawaban model terpotong karena ruang output dimakan retrieval. Kedua, biaya inferensi membengkak karena tahap yang seharusnya ringan menggunakan token jauh lebih banyak dari proporsinya. Marketer dan developer yang menjalankan pipeline RAG di Next.js Supabase perlu menulis lapisan arbitrasi sebagai middleware sebelum panggilan model, supaya kontrol biaya dan kualitas jawaban tidak diserahkan pada keberuntungan.

Pertanyaan Umum

Apakah arbitrasi statis cukup?

Untuk pipeline awal, ya. Setelah trafik bertambah, arbitrasi dinamis berbasis prioritas dokumen dan panjang riwayat memberi efisiensi lebih baik.

Berapa quota minimum untuk output?

Sediakan minimal 15 persen total context window untuk output. Lebih kecil dari itu, model rentan memotong jawaban di pertengahan paragraf.

Bagikan