Digital Transformation
LLM Prefetch Cache Hit Ratio
TL;DR: LLM Prefetch Cache Hit Ratio adalah persentase permintaan LLM yang dilayani dari cache prefetch tanpa memicu inferensi baru. Hit ratio tinggi menurunkan biaya token dan latency edge secara signifikan.
Apa itu LLM Prefetch Cache Hit Ratio?
LLM Prefetch Cache Hit Ratio mengukur efisiensi strategi prefetch pada pipeline LLM. Rumusnya sederhana: jumlah hit dibagi total request, lalu dikalikan 100. Strategi ini biasanya berpasangan dengan LLM Prefetch Cache Budget untuk menentukan slot mana yang dipertahankan.
Cara Hitung dan Target
| Tier | Hit Ratio Target | Implikasi Biaya |
|---|---|---|
| Konservatif | 22 ke 35 persen | Hemat 18 hingga 24 persen |
| Standar | 36 ke 55 persen | Hemat 28 hingga 38 persen |
| Agresif | 56 ke 72 persen | Hemat 42 hingga 54 persen |
Dari pengalaman menangani proyek Atmo LMS, menaikkan hit ratio dari 31 ke 58 persen memotong biaya inferensi Rp 6,8 juta per bulan tanpa menurunkan kualitas jawaban.
Kenapa Penting?
Untuk bisnis yang menjalankan AI feature di website bisnis, hit ratio adalah leading indicator efisiensi biaya. Setiap kenaikan 10 poin biasanya berdampingan dengan penurunan p95 latency 80 hingga 140 ms.
Pertanyaan Umum
Apa beda hit ratio dengan cache coverage?
Hit ratio mengukur efektivitas runtime, sedangkan cache coverage mengukur cakupan key di cache. Referensi praktis: web.dev caching docs.
Berapa hit ratio yang realistis untuk bisnis kecil?
35 hingga 45 persen biasanya tercapai dalam 14 hari setelah pasang prefetch budget yang tepat.
Istilah Terkait