Digital Transformation

Prompt Injection Defense

Prompt injection defense adalah kumpulan teknik untuk mencegah instruksi jahat dari input pengguna atau sumber eksternal mengubah perilaku model AI di luar kontrol developer.

Vito Atmo·30 April 2026·0 kali dibaca·2 min baca

TL;DR: Prompt injection defense adalah lapisan pengaman yang memisahkan instruksi tepercaya (dari developer) dengan data tidak tepercaya (dari pengguna, web, dokumen). Tujuannya menahan serangan yang menyelipkan perintah seperti "abaikan instruksi sebelumnya" agar agen AI tidak bocorkan rahasia, eksekusi tindakan berbahaya, atau keluar dari kebijakan.

Apa itu Prompt Injection Defense?

Prompt injection adalah serangan klasik di sistem berbasis LLM, di mana penyerang menyusup ke konteks dengan instruksi tersembunyi. Defense-nya mencakup pemisahan input, validasi output, dan guardrails di setiap titik tool call. Analogi sederhana: seperti memisahkan jalur SQL parameter dengan string concat di database, AI butuh batas yang tegas antara prompt sistem dan input eksternal.

Pola Pertahanan Utama

Pola	Cara Kerja	Kapan Efektif
Input sandboxing	Tandai data eksternal sebagai untrusted di prompt template	Saat agen membaca dokumen, email, web
Output validation	Re-check hasil dengan classifier sebelum eksekusi	Saat agen punya tool destruktif
Tool allowlisting	Batasi tool yang boleh dipakai per konteks	Multi-step agent
Human-in-the-loop	Konfirmasi user untuk aksi sensitif	Pembayaran, deletion, sharing
Spotlighting	Encode atau highlight bagian untrusted	Konten panjang dengan instruksi tersembunyi

Kenapa Penting?

Per April 2026, OWASP masih menempatkan prompt injection di posisi nomor satu LLM Top 10. Risiko nyata: agen customer support yang membaca email lalu mengirim ulang token akses, atau agen riset yang membuka halaman bermuatan instruksi jahat. Untuk produk Indonesia yang mulai pakai agen AI di alur transaksi, tool poisoning dan injection lewat data pihak ketiga adalah ancaman utama yang harus diuji red teaming sebelum rilis.

Pertanyaan Umum

Apakah filter kata kunci cukup untuk mencegah prompt injection?

Tidak. Penyerang biasanya menyamarkan instruksi dalam bahasa natural, base64, atau bahasa lain. Pertahanan harus berlapis: input boundary, output validation, dan pembatasan tool.

Apa beda prompt injection dengan jailbreak?

Jailbreak menyasar guardrail bawaan model untuk menghasilkan konten terlarang. Prompt injection menyasar aplikasi yang menggunakan model, biasanya untuk membajak aksi atau membocorkan data.

Istilah Terkait

Guardrails (AI Safety)Prompt Injection Red Teaming (AI Security)Tool Poisoning

Semua Istilah Ada pertanyaan? →