Digital Transformation

Prompt Firewall (Tembok Filter Instruksi LLM)

Vito Atmo
Vito Atmo·10 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Prompt Firewall adalah lapisan filter di antara aplikasi dan model bahasa yang memeriksa setiap prompt masuk dan jawaban keluar. Tujuannya menahan prompt injection, kebocoran sistem prompt, dan output yang melanggar kebijakan. Tanpa firewall, satu prompt jahat bisa membuat chatbot brand membocorkan harga internal atau memberi diskon palsu.

Apa itu Prompt Firewall?

Prompt Firewall adalah middleware yang dipasang di pipeline aplikasi AI sebelum dan sesudah pemanggilan model. Sebelum prompt sampai ke model, firewall memeriksa apakah ada prompt injection, instruksi tersembunyi di dokumen RAG, atau permintaan yang melanggar kebijakan. Setelah model menjawab, firewall memeriksa apakah jawaban mengandung data sensitif, halusinasi, atau klaim ilegal sebelum dikirim ke pengguna akhir.

Konsep ini mengikuti pola firewall jaringan tradisional: ada deny-list (pola yang dilarang), allow-list (pola yang dibolehkan), dan rate-limit. Bedanya, evaluasi dilakukan terhadap teks bahasa alami sehingga butuh kombinasi regex, klasifier, dan kadang LLM-as-judge.

Lapisan Pemeriksaan

LapisanYang Diperiksa
Input filterPola injection, instruksi kontradiktif, link mencurigakan
Context filterDokumen RAG kotor, instruksi tersembunyi di metadata
Policy checkTopik terlarang sesuai kebijakan brand
Output filterPII, harga internal, klaim medis/finansial tanpa basis
Audit logSemua transaksi disimpan untuk forensik

Kenapa Penting?

Per Maret 2026, OWASP Top 10 untuk LLM menempatkan prompt injection di posisi pertama risiko. Brand Indonesia yang menerapkan asisten AI publik tanpa firewall berisiko langgar UU PDP saat data pelanggan bocor lewat output, atau kena reputasi jelek saat chatbot memberi jawaban yang menyesatkan. Firewall adalah kontrol kompensasi yang dapat diaudit oleh tim risk.

Pertanyaan Umum

Apakah cukup pakai system prompt yang ketat?

Tidak. System prompt bisa di-bypass lewat injection di input pengguna atau dokumen yang ditarik RAG. Firewall di luar model memberi lapisan tambahan yang tidak bisa diabaikan model.

Apakah firewall menambah latency?

Ya, biasanya 50-300 ms per pemeriksaan. Trade-off ini umumnya wajar dibanding risiko reputasi dan denda regulator.

Bagikan