Digital Transformation
Prompt Injection Defense
Prompt injection defense adalah kumpulan teknik untuk mencegah instruksi jahat dari input pengguna atau sumber eksternal mengubah perilaku model AI di luar kontrol developer.
TL;DR: Prompt injection defense adalah lapisan pengaman yang memisahkan instruksi tepercaya (dari developer) dengan data tidak tepercaya (dari pengguna, web, dokumen). Tujuannya menahan serangan yang menyelipkan perintah seperti "abaikan instruksi sebelumnya" agar agen AI tidak bocorkan rahasia, eksekusi tindakan berbahaya, atau keluar dari kebijakan.
Apa itu Prompt Injection Defense?
Prompt injection adalah serangan klasik di sistem berbasis LLM, di mana penyerang menyusup ke konteks dengan instruksi tersembunyi. Defense-nya mencakup pemisahan input, validasi output, dan guardrails di setiap titik tool call. Analogi sederhana: seperti memisahkan jalur SQL parameter dengan string concat di database, AI butuh batas yang tegas antara prompt sistem dan input eksternal.
Pola Pertahanan Utama
| Pola | Cara Kerja | Kapan Efektif |
|---|---|---|
| Input sandboxing | Tandai data eksternal sebagai untrusted di prompt template | Saat agen membaca dokumen, email, web |
| Output validation | Re-check hasil dengan classifier sebelum eksekusi | Saat agen punya tool destruktif |
| Tool allowlisting | Batasi tool yang boleh dipakai per konteks | Multi-step agent |
| Human-in-the-loop | Konfirmasi user untuk aksi sensitif | Pembayaran, deletion, sharing |
| Spotlighting | Encode atau highlight bagian untrusted | Konten panjang dengan instruksi tersembunyi |
Kenapa Penting?
Per April 2026, OWASP masih menempatkan prompt injection di posisi nomor satu LLM Top 10. Risiko nyata: agen customer support yang membaca email lalu mengirim ulang token akses, atau agen riset yang membuka halaman bermuatan instruksi jahat. Untuk produk Indonesia yang mulai pakai agen AI di alur transaksi, tool poisoning dan injection lewat data pihak ketiga adalah ancaman utama yang harus diuji red teaming sebelum rilis.
Pertanyaan Umum
Apakah filter kata kunci cukup untuk mencegah prompt injection?
Tidak. Penyerang biasanya menyamarkan instruksi dalam bahasa natural, base64, atau bahasa lain. Pertahanan harus berlapis: input boundary, output validation, dan pembatasan tool.
Apa beda prompt injection dengan jailbreak?
Jailbreak menyasar guardrail bawaan model untuk menghasilkan konten terlarang. Prompt injection menyasar aplikasi yang menggunakan model, biasanya untuk membajak aksi atau membocorkan data.