Digital Transformation

LLM Prefetch Cache Hit Ratio

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: LLM Prefetch Cache Hit Ratio adalah persentase permintaan LLM yang dilayani dari cache prefetch tanpa memicu inferensi baru. Hit ratio tinggi menurunkan biaya token dan latency edge secara signifikan.

Apa itu LLM Prefetch Cache Hit Ratio?

LLM Prefetch Cache Hit Ratio mengukur efisiensi strategi prefetch pada pipeline LLM. Rumusnya sederhana: jumlah hit dibagi total request, lalu dikalikan 100. Strategi ini biasanya berpasangan dengan LLM Prefetch Cache Budget untuk menentukan slot mana yang dipertahankan.

Cara Hitung dan Target

TierHit Ratio TargetImplikasi Biaya
Konservatif22 ke 35 persenHemat 18 hingga 24 persen
Standar36 ke 55 persenHemat 28 hingga 38 persen
Agresif56 ke 72 persenHemat 42 hingga 54 persen

Dari pengalaman menangani proyek Atmo LMS, menaikkan hit ratio dari 31 ke 58 persen memotong biaya inferensi Rp 6,8 juta per bulan tanpa menurunkan kualitas jawaban.

Kenapa Penting?

Untuk bisnis yang menjalankan AI feature di website bisnis, hit ratio adalah leading indicator efisiensi biaya. Setiap kenaikan 10 poin biasanya berdampingan dengan penurunan p95 latency 80 hingga 140 ms.

Pertanyaan Umum

Apa beda hit ratio dengan cache coverage?

Hit ratio mengukur efektivitas runtime, sedangkan cache coverage mengukur cakupan key di cache. Referensi praktis: web.dev caching docs.

Berapa hit ratio yang realistis untuk bisnis kecil?

35 hingga 45 persen biasanya tercapai dalam 14 hari setelah pasang prefetch budget yang tepat.

Bagikan