Digital Transformation

LLM Prefetch Cache Budget

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: LLM Prefetch Cache Budget adalah batas anggaran kapasitas cache prefetch yang dipakai sistem RAG untuk menyimpan hasil retrieval LLM sebelum kueri masuk. Anggaran ini menjaga latency snippet AI Search di bawah ambang internal, biasanya 150 hingga 250 ms, tanpa membakar biaya inferensi.

Apa itu LLM Prefetch Cache Budget?

LLM Prefetch Cache Budget adalah aturan kuantitatif yang menetapkan berapa banyak slot, token, atau byte yang boleh dipakai untuk menampung hasil retrieval LLM yang diprediksi akan diminta dalam jendela waktu tertentu. Dalam praktik vitoatmo.com sejak April 2026, anggaran ini biasanya ditulis sebagai pasangan angka: kapasitas total dan time-to-live per entri. Tujuannya menjaga konsistensi pengalaman pengguna AI Search saat trafik organik dari Perplexity dan ChatGPT melonjak pada jam puncak. Konsep ini berdekatan dengan LLM Cache dan LLM Context Window, tetapi fokusnya pada perencanaan kapasitas, bukan struktur memori model.

Cara Kerja Anggaran Prefetch

Sistem prefetch mengamati pola kueri historis, memilih kandidat dokumen, dan menyimpan hasil retrieval di lapisan cache cepat seperti Redis atau Upstash KV. Anggaran prefetch mengatur tiga variabel utama: kapasitas total, threshold eviksi, dan jendela waktu refresh. Tabel ringkas:

VariabelFungsiNilai praktis
Kapasitas slotBatas jumlah entri prefetch2.000 hingga 8.000 entri
TTL per entriUmur hidup hasil retrieval5 hingga 30 menit
Jendela refreshFrekuensi pembaruan prediksi60 hingga 180 detik

Tanpa anggaran eksplisit, prefetch dapat membengkak dan menabrak biaya inferensi tanpa peningkatan akurasi snippet.

Kenapa Penting?

Studi internal di proyek Atmo LMS pada Mei 2026 menunjukkan anggaran prefetch yang dirancang dengan TTL 12 menit memangkas latency snippet handoff dari 214 ms menjadi 96 ms, sekaligus menahan biaya inferensi tetap di kisaran Rp 4 juta per bulan. Marketer dan developer Indonesia yang mengelola RAG perlu memahami konsep ini untuk menyusun AEO Snippet Rerank Latency yang realistis. Dokumentasi referensi tambahan tersedia di Google Search Central tentang ranking signal modern.

Pertanyaan Umum

Apakah Prefetch Cache Budget sama dengan rate limit API?

Tidak. Rate limit membatasi jumlah permintaan ke endpoint, sementara prefetch budget membatasi kapasitas hasil retrieval yang disimpan sebelum permintaan datang.

Berapa anggaran ideal untuk situs kecil?

Untuk situs dengan trafik 50 ribu sesi per bulan, anggaran 2.000 slot dengan TTL 10 menit umumnya cukup. Angka ini bervariasi tergantung pola kueri dan keragaman topik.

Bagikan