Digital Transformation
Prompt Injection Budget (Anggaran Tahan Injeksi pada Asisten AI)
TL;DR: Prompt Injection Budget adalah angka maksimum kasus injeksi prompt yang masih boleh lolos dalam periode tertentu sebelum tim wajib turunkan fitur, kunci tool, atau tahan deployment. Konsepnya mirip error budget di SRE, tapi diterapkan untuk keamanan agen AI.
Apa itu Prompt Injection Budget?
Saat brand memasang asisten AI, terutama yang punya akses tool ke data internal, instruksi asing dari dokumen, email, atau halaman web bisa mengubah perilaku agen. Prompt Injection Budget adalah keputusan eksplisit, misalnya: maksimum 0,5% dari sesi mingguan boleh terdeteksi mengalami injeksi sukses sebelum eskalasi. Lewat angka itu, fitur dimatikan dan tim audit penyebab. Pendekatan ini memaksa diskusi soal trade-off antara kecepatan rilis dan kepatuhan, mirip prinsip yang dipakai di SLO.
Komponen Anggaran
| Elemen | Penjelasan |
|---|---|
| Window pengukuran | Mingguan paling umum, beberapa tim pakai 24 jam untuk fitur baru |
| Sumber sinyal | Eval set merah (red-team), log produksi, laporan pengguna |
| Metode deteksi | Regex pattern, classifier, LLM as judge |
| Konsekuensi over-budget | Kunci tool, downgrade ke mode read-only, rollback prompt |
| Pemilik | Security lead atau AI Ops, bukan marketing |
Tim Indonesia bisa mulai dengan budget 1% lalu turunkan setiap kuartal sambil memperkuat prompt injection defense.
Kenapa Penting?
Tanpa anggaran formal, keputusan keamanan diambil ad hoc dan biasanya kalah dari tekanan rilis. Anggaran yang ditulis di dokumen kebijakan memberi otoritas teknis untuk menahan fitur, sehingga insiden seperti kebocoran data pelanggan dari chatbot bisa dicegah sebelum jadi krisis humas. Untuk perusahaan yang patuh UU PDP, ini juga jadi bukti tata kelola yang bisa ditunjukkan ke auditor.
Pertanyaan Umum
Bedanya dengan Prompt Injection Rate?
Prompt Injection Rate adalah metrik mentah hasil pengukuran. Prompt Injection Budget adalah keputusan kebijakan tentang batas atas yang boleh dicapai metrik itu sebelum sistem bertindak.
Berapa target yang realistis?
Untuk fitur baru, mulai dari 1% lalu turunkan ke 0,2% dalam 6 bulan saat pola serangan sudah dipetakan. Angka pas tergantung sensitivitas data dan industri.
Istilah Terkait