Digital Transformation
Prompt Cache Hit Rate
TL;DR: Prompt cache hit rate adalah persentase permintaan ke API model bahasa yang dilayani dari cache prompt, bukan dari komputasi penuh. Cache hit rate tinggi memangkas biaya dan latensi. Marketer yang menjalankan automation berbasis LLM perlu mengukurnya agar anggaran terkendali.
Apa itu Prompt Cache Hit Rate?
Prompt cache hit rate mengukur seberapa sering input prompt sudah pernah diproses model dan jawabannya disimpan di cache. Semakin tinggi hit rate, semakin murah operasional. Penyedia API besar seperti Anthropic dan OpenAI menyediakan fitur prompt caching, dengan dokumentasi resmi di Anthropic docs. Konsep ini erat dengan caching strategy dan KV cache LLM cost.
Cara Menghitung
Rumus dasar: hit_rate = cache_hits / total_requests. Sebagian besar provider mengirim metadata berapa token dilayani dari cache di response. Marketer cukup menjumlahkan field tersebut dan membaginya dengan total token input bulanan.
| Tingkatan | Hit Rate | Implikasi Biaya |
|---|---|---|
| Rendah | di bawah 20% | Cache belum optimal |
| Menengah | 20-60% | Struktur prompt mulai stabil |
| Tinggi | di atas 60% | Hemat 30-50% biaya input |
Rentang di atas adalah pengamatan umum di workflow content automation skala kecil-menengah.
Kenapa Penting?
Untuk marketer Indonesia yang membangun marketing automation berbasis LLM (misal generator brief, evaluator iklan), biaya bisa membengkak cepat. Mengoptimalkan cache hit rate dengan menempatkan instruksi sistem dan contoh stabil di awal prompt adalah salah satu cara paling efektif memangkas biaya tanpa menurunkan kualitas output.
Pertanyaan Umum
Apakah cache hit rate sama dengan latency improvement?
Berhubungan tapi tidak identik. Cache hit memang biasanya menurunkan latency, tapi keuntungan utamanya adalah penghematan biaya input token.
Apa yang bisa merusak cache hit rate?
Mengubah-ubah urutan instruksi, menambah variabel acak di awal prompt, atau timeout cache (umumnya 5-60 menit di provider populer).