Digital Transformation

LLM Context Snapshot Budget

Vito Atmo
Vito Atmo·1 Juni 2026·0 kali dibaca·2 min baca

TL;DR: LLM Context Snapshot Budget adalah jatah maksimum snapshot konteks per sesi agen AI, biasanya 8 ribu sampai 16 ribu token. Budget yang ketat menahan p95 latency di bawah 1,4 detik dan memangkas biaya inferensi 25-40 persen di sistem agen produksi.

Apa itu LLM Context Snapshot Budget?

LLM Context Snapshot Budget membatasi seberapa besar potongan konteks (riwayat percakapan, dokumen, hasil tool call) yang boleh disimpan sebagai snapshot per sesi agen. Snapshot adalah salinan konteks yang dipertahankan agar agen tidak perlu rebuild dari nol setiap turn. Budget yang tidak dibatasi menyebabkan snapshot menggemuk, latency naik, dan biaya inferensi membengkak.

Konsep ini bersaudara dengan LLM Context Pinning Budget (yang membatasi konteks yang di-pin permanen) dan LLM Context Eviction Policy (yang mengatur kapan konteks dibuang). Snapshot budget berada di tengah, mengatur ukuran salinan kerja.

Cara Setel Budget

SkenarioBudget TokenAlasan
Chatbot ringan (FAQ)4.000 - 6.000Riwayat pendek, jawaban cepat
Asisten konsultasi8.000 - 12.000Butuh konteks dokumen klien
Agen multi-tool kompleks12.000 - 16.000Banyak hasil tool yang harus disimpan

Aturan praktis dari pengalaman membangun agen AI untuk klien Atmo LMS dan Vetmo, budget di atas 18 ribu token jarang memberi peningkatan kualitas yang sepadan dengan kenaikan biaya 2-3 kali lipat.

Kenapa Penting?

Tanpa budget yang ditegakkan, snapshot konteks tumbuh linear seiring panjangnya sesi. Untuk marketer Indonesia yang menjalankan agen AI di funnel penjualan, ini berarti biaya inferensi per sesi naik tidak terkendali saat pelanggan banyak bertanya. Dokumentasi OpenAI tentang context window menegaskan bahwa context size berhubungan langsung dengan biaya dan latency.

Pertanyaan Umum

Apa beda snapshot budget dengan context window?

Context window adalah kapasitas maksimum model. Snapshot budget adalah alokasi yang Anda setel di bawah kapasitas, untuk efisiensi.

Bagaimana cara monitor budget terlampaui?

Tambahkan logging token count per turn dan alert otomatis saat snapshot melebihi 90 persen dari budget.

Bagikan