Digital Transformation

Prompt Cache (Cache Prompt untuk Inferensi AI)

Prompt cache adalah mekanisme menyimpan hasil komputasi token prompt yang berulang sehingga model AI tidak perlu memproses ulang konteks yang sama, memangkas biaya dan latency permintaan.

Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Prompt cache adalah teknik menyimpan hasil komputasi token prompt yang sama supaya model AI tidak perlu memproses ulang dari nol. Untuk brand Indonesia yang menjalankan chatbot dengan system prompt panjang, prompt cache umumnya memangkas biaya 30-70% dan latency 30-50%.

Apa itu Prompt Cache?

Prompt cache adalah fitur di provider model AI (OpenAI, Anthropic, Google) yang menyimpan representasi internal dari bagian prompt yang berulang. Ketika permintaan baru memakai prefix prompt yang sama, model langsung memakai hasil cache tanpa menghitung ulang. Analoginya seperti browser cache yang membuat halaman web kedua kali diakses lebih cepat dari yang pertama.

Bagian yang biasanya layak di-cache: system prompt panjang, dokumen referensi yang dipakai berulang di chatbot RAG, contoh few-shot, dan instruksi format output.

Cara Kerja

Tahap	Yang terjadi
Permintaan pertama	Model menghitung representasi seluruh prompt, hasil prefix disimpan ke cache (biaya penuh).
Permintaan berikutnya	Prefix yang sama diambil dari cache, hanya bagian baru yang dihitung (biaya dan latency turun).
Cache expiry	Umumnya 5-60 menit tergantung provider, perlu re-warm jika tidak terpakai.

Biaya cache hit biasanya 10-25% dari biaya token normal. Threshold minimum prompt yang bisa di-cache bervariasi per provider, umumnya mulai 1024 token.

Kenapa Penting?

Untuk chatbot brand Indonesia yang kirim system prompt 2000-5000 token di setiap permintaan, prompt cache adalah optimasi paling cepat menurunkan tagihan tanpa ganti model. Brand yang melayani 10.000+ percakapan per bulan bisa menghemat jutaan rupiah hanya dari aktifkan caching, tanpa kompromi kualitas jawaban. Kombinasikan dengan model routing dan eval harness untuk hasil maksimal.

Pertanyaan Umum

Apakah prompt cache mengurangi kualitas jawaban?

Tidak. Cache hanya menyimpan komputasi prefix, bukan jawaban. Output tetap dihasilkan oleh model yang sama dengan kualitas identik.

Berapa lama cache bertahan?

Umumnya 5-60 menit tergantung provider. Anthropic punya cache 5 menit yang bisa diperpanjang ke 1 jam dengan biaya berbeda. OpenAI cache prompt otomatis di sesi yang aktif.

Apakah semua bagian prompt bisa di-cache?

Hanya prefix (bagian awal) yang konsisten yang bisa di-cache. Letakkan instruksi statis dan dokumen referensi di awal, dan input dinamis (pertanyaan user) di akhir.

Istilah Terkait

Context Compression (Pemampatan Konteks Permintaan AI)Eval Harness (Kerangka Evaluasi Otomatis Sistem AI)Inference Cost (Biaya Inferensi Model AI)Model Routing (Perutean Permintaan ke Model AI yang Tepat)

Semua Istilah Ada pertanyaan? →