Digital Transformation
Prompt Caching
Prompt caching adalah teknik penyimpanan sementara bagian prompt yang panjang atau berulang di sisi LLM provider supaya pemanggilan API berikutnya jauh lebih cepat dan murah.
TL;DR: Prompt caching adalah fitur LLM provider seperti Anthropic Claude dan OpenAI yang menyimpan bagian prompt yang panjang atau berulang di cache, sehingga panggilan API berikutnya menggunakan konteks yang sama hanya membayar fraksi harga dan latensi turun signifikan. Untuk aplikasi RAG dan chatbot dengan system prompt panjang, fitur ini bisa memangkas biaya hingga 90 persen pada bagian yang di-cache.
Apa itu Prompt Caching?
Prompt caching adalah mekanisme di sisi server LLM yang menyimpan hasil tokenisasi dan komputasi prefix dari sebuah prompt selama jendela waktu tertentu (umumnya 5 menit pada Anthropic, 1 jam dengan beta extended). Saat panggilan berikutnya datang dengan prefix yang persis sama, server mengambil state yang sudah dihitung dan hanya memproses bagian baru. Lihat dokumentasi resmi di Anthropic Prompt Caching.
Fitur ini berbeda dari embedding yang menyimpan representasi semantik dokumen di vector database. Prompt caching bekerja di level token mentah dan eksekusi model, bukan retrieval.
Cara Kerja
| Tahap | Aksi |
|---|---|
| Write | Panggilan pertama: server menulis cache, biaya 1.25x normal |
| Read | Panggilan berikutnya dengan prefix sama: biaya 0.1x normal pada bagian cached |
| TTL | Cache aktif 5 menit (default) atau 1 jam (extended) |
| Invalidasi | Perubahan apapun pada prefix membatalkan cache dari titik perubahan |
Untuk maksimalkan penghematan, letakkan konten yang stabil seperti system prompt, dokumen referensi, dan few-shot examples di awal request, lalu pesan user yang berubah-ubah di akhir.
Kenapa Penting?
Untuk marketer Indonesia yang membangun chatbot atau aplikasi internal di atas LLM, prompt caching mengubah ekonomi aplikasi AI dari mahal menjadi feasible. Vito Atmo memakai pola ini untuk skill publishing yang prefix-nya berisi panduan brand voice 4000 token, sehingga setiap eksekusi otomatis di Cowork hanya membayar fraksi dari biaya panggilan pertama. Tanpa caching, biaya operasional konten otomatis bisa naik 3-5 kali lipat.
Pertanyaan Umum
Apakah prompt caching sama dengan vector search?
Tidak. Vector search me-retrieve dokumen relevan dari vector database berdasarkan kemiripan semantik. Prompt caching menyimpan hasil komputasi prefix yang sudah jadi, tanpa retrieval.
Berapa minimal panjang prompt untuk dicache?
Anthropic mensyaratkan minimal 1024 token untuk Claude Sonnet dan 2048 token untuk Haiku. Di bawah threshold itu, cache tidak aktif walaupun parameter caching dipasang.
Istilah Terkait