Digital Transformation
Hallucination Rate (Tingkat Halusinasi AI)
Hallucination Rate adalah persentase jawaban LLM yang berisi informasi salah atau fabrikasi, metrik penting untuk evaluasi keandalan AI Search.
TL;DR: Hallucination Rate adalah persentase output AI yang berisi klaim salah atau fabrikasi. Metrik ini jadi acuan utama saat menilai keandalan LLM untuk aplikasi berisiko tinggi seperti kesehatan, hukum, atau AI Search.
Apa itu Hallucination Rate?
Hallucination Rate menghitung proporsi respons AI yang salah fakta dibandingkan total respons. Rumus dasarnya:
Evaluasi biasanya dilakukan manual oleh reviewer atau otomatis via model pembanding yang mengecek klaim ke sumber otoritatif. Benchmark publik seperti Vectara Hallucination Leaderboard per Maret 2026 menunjukkan model top tier berada di kisaran 1-4%, sementara model lebih kecil bisa 8-15%.
Cara Menurunkan Hallucination Rate
| Teknik | Deskripsi | Dampak |
|---|---|---|
| RAG | Mengambil konteks dari database otoritatif sebelum menjawab | Turun 30-60% |
| Citation enforcement | Paksa model menyertakan sumber | Turun 15-30% |
| Temperature rendah | Kurangi randomness generasi | Turun 5-15% |
| Fine-tuning domain | Latih ulang di data spesifik industri | Variatif |
Kenapa Penting untuk Marketer?
Saat bisnis mengandalkan AI untuk customer support atau konten, satu halusinasi bisa merusak trust pelanggan. Dalam proyek chatbot untuk klien e-commerce Nalesha, kami menetapkan ambang hallucination rate di bawah 2% sebelum chatbot go-live, dan memakai RAG dari katalog produk sendiri agar model tidak mengarang nama varian parfum. Untuk konten yang ditujukan ke AI Overview, konten dengan Schema Markup yang jelas membantu model mengutip fakta dengan benar alih-alih berhalusinasi.
Pertanyaan Umum
Apakah semua halusinasi selalu salah secara fakta?
Mayoritas ya, tapi ada kategori "plausible hallucination" yang terdengar masuk akal dan bisa benar secara kebetulan. Tetap dihitung sebagai halusinasi jika model tidak punya basis sumber saat menghasilkannya.
Berapa hallucination rate yang "aman" untuk production?
Belum ada standar industri, tapi praktik umum: di bawah 3% untuk aplikasi umum dan di bawah 1% untuk aplikasi regulated seperti kesehatan atau keuangan.
Istilah Terkait