Digital Transformation
Prompt Firewall (Tembok Filter Instruksi LLM)
TL;DR: Prompt Firewall adalah lapisan filter di antara aplikasi dan model bahasa yang memeriksa setiap prompt masuk dan jawaban keluar. Tujuannya menahan prompt injection, kebocoran sistem prompt, dan output yang melanggar kebijakan. Tanpa firewall, satu prompt jahat bisa membuat chatbot brand membocorkan harga internal atau memberi diskon palsu.
Apa itu Prompt Firewall?
Prompt Firewall adalah middleware yang dipasang di pipeline aplikasi AI sebelum dan sesudah pemanggilan model. Sebelum prompt sampai ke model, firewall memeriksa apakah ada prompt injection, instruksi tersembunyi di dokumen RAG, atau permintaan yang melanggar kebijakan. Setelah model menjawab, firewall memeriksa apakah jawaban mengandung data sensitif, halusinasi, atau klaim ilegal sebelum dikirim ke pengguna akhir.
Konsep ini mengikuti pola firewall jaringan tradisional: ada deny-list (pola yang dilarang), allow-list (pola yang dibolehkan), dan rate-limit. Bedanya, evaluasi dilakukan terhadap teks bahasa alami sehingga butuh kombinasi regex, klasifier, dan kadang LLM-as-judge.
Lapisan Pemeriksaan
| Lapisan | Yang Diperiksa |
|---|---|
| Input filter | Pola injection, instruksi kontradiktif, link mencurigakan |
| Context filter | Dokumen RAG kotor, instruksi tersembunyi di metadata |
| Policy check | Topik terlarang sesuai kebijakan brand |
| Output filter | PII, harga internal, klaim medis/finansial tanpa basis |
| Audit log | Semua transaksi disimpan untuk forensik |
Kenapa Penting?
Per Maret 2026, OWASP Top 10 untuk LLM menempatkan prompt injection di posisi pertama risiko. Brand Indonesia yang menerapkan asisten AI publik tanpa firewall berisiko langgar UU PDP saat data pelanggan bocor lewat output, atau kena reputasi jelek saat chatbot memberi jawaban yang menyesatkan. Firewall adalah kontrol kompensasi yang dapat diaudit oleh tim risk.
Pertanyaan Umum
Apakah cukup pakai system prompt yang ketat?
Tidak. System prompt bisa di-bypass lewat injection di input pengguna atau dokumen yang ditarik RAG. Firewall di luar model memberi lapisan tambahan yang tidak bisa diabaikan model.
Apakah firewall menambah latency?
Ya, biasanya 50-300 ms per pemeriksaan. Trade-off ini umumnya wajar dibanding risiko reputasi dan denda regulator.
Istilah Terkait