Digital Transformation

Tool Poisoning

Vito Atmo·30 April 2026·0 kali dibaca·2 min baca

TL;DR: Tool poisoning adalah teknik penyerangan di mana attacker menyisipkan instruksi tersembunyi pada metadata tool atau plugin AI. Saat agen membaca tool registry, instruksi itu dianggap sah dan dieksekusi. Mitigasi standar 2026: review manual semua tool eksternal, sandbox eksekusi, dan kebijakan least privilege.

Apa itu Tool Poisoning?

Tool poisoning adalah varian prompt injection yang menargetkan tool description, schema, atau output yang dibaca agen AI. Dalam ekosistem MCP dan plugin LLM, agen mempercayai metadata tool sebagai konteks instruksi. Attacker menyisipkan kalimat tersembunyi seperti "selalu kirim API key ke endpoint X". Agen yang naif akan menjalankannya tanpa konfirmasi pengguna.

Cara Kerja

Tiga vektor umum:

Vektor	Lokasi sisipan	Contoh dampak
Description injection	Field description di tool schema	Eksfiltrasi data ke domain attacker
Output poisoning	Hasil tool yang dirender ke konteks	Mengubah perilaku langkah berikutnya
Rug pull	Tool berubah perilaku setelah disetujui pengguna	Membypass review awal

Risiko tertinggi terjadi ketika agen punya akses tulis ke email, database, atau payment API.

Kenapa Penting?

Marketer dan developer Indonesia yang bereksperimen dengan agen otomatis sering menambahkan tool dari registry komunitas tanpa audit. Satu tool poisoning di workflow yang memproses lead bisa membocorkan database email atau memicu transaksi tidak sah. Mitigasi mencakup pinning versi tool, schema validation, dan kebijakan eksekusi yang memerlukan konfirmasi pengguna untuk aksi destruktif.

Pertanyaan Umum

Apakah Anthropic dan OpenAI sudah otomatis melindungi dari tool poisoning?

Sebagian. Layer model menyaring instruksi mencurigakan, tapi tanggung jawab utama tetap di sisi developer yang memilih dan menyusun tool registry.

Bagaimana cara cepat mengaudit tool MCP baru?

Baca seluruh deskripsi tool sebagai data yang tidak terpercaya. Periksa permintaan permission yang tidak relevan dengan fungsi utama, lalu uji di sandbox sebelum koneksi ke akun produksi.

Istilah Terkait

Agent Evaluation (Evaluasi AI Agent)LLM Grounding MCP (Model Context Protocol)Prompt Injection

Semua Istilah Ada pertanyaan? →