Digital Transformation

LLM Token Budget Arbitration

Vito Atmo·31 Mei 2026·1 kali dibaca·3 min baca

TL;DR: LLM Token Budget Arbitration adalah kebijakan yang membagi alokasi token konteks antar tahap pipeline LLM, biasanya 10 persen sistem, 50 persen retrieval, 20 persen riwayat, 20 persen output. Tanpa arbitrasi, satu tahap rakus bisa memakan kuota tahap lain dan menurunkan kualitas jawaban. Praktik ini standar di pipeline RAG produksi.

Apa itu LLM Token Budget Arbitration?

LLM Token Budget Arbitration adalah lapisan kontrol yang menjamin pembagian adil alokasi token konteks ke setiap tahap pipeline LLM. Pipeline RAG modern punya minimal empat konsumen token: prompt sistem, dokumen hasil retrieval, riwayat percakapan, dan ruang output yang dipesan. Saat salah satu konsumen membengkak, misal retrieval mengirim 32 dokumen, kuota untuk riwayat dan output bisa habis dan model dipaksa memotong jawaban di tengah jalan.

Arbitrasi bekerja seperti scheduler. Setiap tahap diberi quota tetap atau quota dinamis berbasis prioritas. Saat satu tahap meminta lebih dari kuota, arbiter melakukan kompresi, ringkasan, atau pengurangan jumlah item. Mekanisme ini berhubungan erat dengan LLM Context Compaction Ratio, tetapi fokusnya bukan pada rasio kompresi, melainkan pada distribusi kuota.

Pola Pembagian Umum

Tahap	Quota Default	Strategi Saat Over
System prompt	8 sampai 12 persen	Cache prefix, jangan dipotong
Retrieval	45 sampai 55 persen	Turunkan top-k atau ringkas dokumen
Riwayat	15 sampai 25 persen	Sliding window atau rolling summary
Output reserved	15 sampai 25 persen	Tetap, jangan dimakan tahap lain

Pola di atas saya pakai di pipeline Atmo LMS dan menghasilkan rasio konteks pemotongan jauh di bawah 5 persen, bahkan saat sesi berlangsung 30 giliran. Pendekatan ini sejalan dengan Agent Tool Budget Arbitration tetapi diaplikasikan ke level token, bukan level pemanggilan tool.

Kenapa Penting?

Tanpa arbitrasi, ada dua kegagalan klasik. Pertama, jawaban model terpotong karena ruang output dimakan retrieval. Kedua, biaya inferensi membengkak karena tahap yang seharusnya ringan menggunakan token jauh lebih banyak dari proporsinya. Marketer dan developer yang menjalankan pipeline RAG di Next.js Supabase perlu menulis lapisan arbitrasi sebagai middleware sebelum panggilan model, supaya kontrol biaya dan kualitas jawaban tidak diserahkan pada keberuntungan.

Pertanyaan Umum

Apakah arbitrasi statis cukup?

Untuk pipeline awal, ya. Setelah trafik bertambah, arbitrasi dinamis berbasis prioritas dokumen dan panjang riwayat memberi efisiensi lebih baik.

Berapa quota minimum untuk output?

Sediakan minimal 15 persen total context window untuk output. Lebih kecil dari itu, model rentan memotong jawaban di pertengahan paragraf.

Istilah Terkait

Agent Tool Budget Arbitration Context Window LLM Context Compaction Ratio LLM Context Window Utilization Rate Structured Data

Semua Istilah Ada pertanyaan? →