Digital Transformation
Prompt Stuffing (Penjejalan Konteks Prompt)
TL;DR: Prompt stuffing adalah kebiasaan memasukkan terlalu banyak konteks, dokumen, atau instruksi ke dalam satu prompt LLM dengan harapan model jadi lebih akurat. Faktanya, melewati 60 sampai 70 persen kapasitas context window justru menurunkan recall, meningkatkan latensi, dan membengkakkan biaya token tanpa hasil yang sepadan.
Apa itu Prompt Stuffing?
Prompt stuffing terjadi ketika tim memperlakukan context window sebagai gudang penyimpanan, bukan ruang kerja yang harus dikurasi. Pola yang umum: developer menempelkan seluruh dokumentasi produk, riwayat percakapan, dan beberapa contoh sekaligus ke dalam satu prompt agar LLM "tahu segalanya". Hasilnya bertolak belakang dari ekspektasi. Riset internal beberapa lab AI menunjukkan akurasi recall tengah konteks bisa turun 20 sampai 30 persen ketika prompt diisi mendekati batas window.
Praktik ini sering dipicu oleh asumsi bahwa lebih banyak data sama dengan lebih banyak akurasi. Pendekatan yang lebih sehat adalah membangun retrieval pipeline yang hanya mengirimkan potongan paling relevan, lalu memakai sisa budget untuk instruksi yang tajam.
Tanda Prompt Sedang Stuffing
| Sinyal | Indikasi |
|---|---|
| Latensi p95 naik tanpa traffic naik | Token input membengkak |
| Biaya per request melonjak | Konteks tidak dikurasi |
| Jawaban lupa instruksi awal | Lost in the middle |
| Akurasi turun di evaluasi rutin | Sinyal terdegradasi |
Kenapa Penting?
Untuk marketer dan developer Indonesia yang membangun produk berbasis LLM, prompt stuffing langsung memukul margin. Setiap 1.000 token tambahan di prompt yang dipanggil ribuan kali per hari berarti tagihan API yang terus naik. Lebih buruk lagi, kualitas jawaban menurun saat tim menambah lebih banyak konteks, sehingga produk terasa "makin pintar" di demo tapi makin buruk di produksi. Disiplin kurasi konteks via chunking strategy dan reranking adalah jalan keluar yang lebih murah dan lebih tahan lama.
Pertanyaan Umum
Apakah prompt panjang selalu buruk?
Tidak. Prompt panjang yang berisi instruksi terstruktur, contoh terkurasi, dan retrieval yang relevan tetap sehat. Yang bermasalah adalah memasukkan dokumen mentah tanpa filter.
Berapa rasio aman pemakaian context window?
Praktik yang umum disarankan adalah menjaga total token di bawah 60 sampai 70 persen kapasitas, sehingga ada ruang untuk output dan model masih bisa fokus pada bagian penting.
Istilah Terkait