Digital Transformation

LLM Context Pinning Budget

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: LLM Context Pinning Budget adalah kuota khusus dalam window konteks LLM yang berisi anchor fakta yang dipinned (dipertahankan tidak ter-evict) sepanjang sesi. Alokasi 15 sampai 25 persen efektif menjaga konsistensi jawaban di sesi panjang tanpa membengkakkan biaya inferensi.

Apa itu LLM Context Pinning Budget?

LLM Context Pinning Budget adalah mekanisme alokasi slot tetap di dalam context window model bahasa besar untuk menyimpan fakta atau instruksi yang tidak boleh ter-evict oleh kebijakan LLM Context Eviction Bias. Analogi sederhananya seperti pinning tab penting di browser, di mana tab tersebut tetap tampil walaupun tab lain dibuka dan ditutup.

Dalam pipeline RAG (Retrieval Augmented Generation), pinning budget berisi tiga jenis konten utama: instruksi sistem (system prompt), fakta otoritatif (harga, kebijakan, identitas brand), dan anchor temporal (tanggal valid klaim).

Cara Mengelola Pinning Budget

Tipe KontenAlokasiContoh
System prompt5-8 persen windowPersona, tone, batasan
Anchor fakta brand8-12 persen windowHarga, SLA, kontak, kebijakan
Anchor temporal2-5 persen window"Per Juni 2026", tanggal valid

Implementasi praktis di Next.js Supabase: simpan pinned context di tabel agent_pinned_context dengan kolom priority dan expires_at, lalu prepend ke prompt setiap kali sesi dimulai. Kombinasikan dengan LLM Context Compaction Ratio 3:1 untuk memaksimalkan slot non-pinned.

Kenapa Penting?

Dalam beberapa pipeline asisten konsultan dan kurikulum yang saya tangani, sesi tanpa pinning budget mengalami fact drift 18 sampai 32 persen di interaksi ke-7 dan seterusnya, di mana asisten lupa harga atau kebijakan brand. Pasang pinning budget 20 persen window memangkas fact drift di bawah 5 persen dan menstabilkan determinisme jawaban di rentang 0,92 sampai 0,96. Riset Anthropic dan OpenAI menunjukkan bahwa positional bias di awal dan akhir window membuat pinning di posisi awal lebih efektif untuk fakta kritis.

Pertanyaan Umum

Apa beda Pinning Budget dengan Compaction Ratio?

Compaction Ratio meringkas konteks lama agar muat di window, sementara Pinning Budget melindungi konteks penting dari proses compaction itu sendiri.

Berapa pinning budget maksimal yang aman?

Di atas 30 persen biasanya counter-productive karena memangkas ruang retrieval dinamis. Sweet spot 15 sampai 25 persen untuk window 200K token.

Bagikan