Digital Transformation

Prompt Injection Defense

Prompt injection defense adalah kumpulan teknik untuk mencegah instruksi jahat dari input pengguna atau sumber eksternal mengubah perilaku model AI di luar kontrol developer.

Vito Atmo
Vito Atmo·30 April 2026·0 kali dibaca·2 min baca

TL;DR: Prompt injection defense adalah lapisan pengaman yang memisahkan instruksi tepercaya (dari developer) dengan data tidak tepercaya (dari pengguna, web, dokumen). Tujuannya menahan serangan yang menyelipkan perintah seperti "abaikan instruksi sebelumnya" agar agen AI tidak bocorkan rahasia, eksekusi tindakan berbahaya, atau keluar dari kebijakan.

Apa itu Prompt Injection Defense?

Prompt injection adalah serangan klasik di sistem berbasis LLM, di mana penyerang menyusup ke konteks dengan instruksi tersembunyi. Defense-nya mencakup pemisahan input, validasi output, dan guardrails di setiap titik tool call. Analogi sederhana: seperti memisahkan jalur SQL parameter dengan string concat di database, AI butuh batas yang tegas antara prompt sistem dan input eksternal.

Pola Pertahanan Utama

PolaCara KerjaKapan Efektif
Input sandboxingTandai data eksternal sebagai untrusted di prompt templateSaat agen membaca dokumen, email, web
Output validationRe-check hasil dengan classifier sebelum eksekusiSaat agen punya tool destruktif
Tool allowlistingBatasi tool yang boleh dipakai per konteksMulti-step agent
Human-in-the-loopKonfirmasi user untuk aksi sensitifPembayaran, deletion, sharing
SpotlightingEncode atau highlight bagian untrustedKonten panjang dengan instruksi tersembunyi

Kenapa Penting?

Per April 2026, OWASP masih menempatkan prompt injection di posisi nomor satu LLM Top 10. Risiko nyata: agen customer support yang membaca email lalu mengirim ulang token akses, atau agen riset yang membuka halaman bermuatan instruksi jahat. Untuk produk Indonesia yang mulai pakai agen AI di alur transaksi, tool poisoning dan injection lewat data pihak ketiga adalah ancaman utama yang harus diuji red teaming sebelum rilis.

Pertanyaan Umum

Apakah filter kata kunci cukup untuk mencegah prompt injection?

Tidak. Penyerang biasanya menyamarkan instruksi dalam bahasa natural, base64, atau bahasa lain. Pertahanan harus berlapis: input boundary, output validation, dan pembatasan tool.

Apa beda prompt injection dengan jailbreak?

Jailbreak menyasar guardrail bawaan model untuk menghasilkan konten terlarang. Prompt injection menyasar aplikasi yang menggunakan model, biasanya untuk membajak aksi atau membocorkan data.

Bagikan