Digital Marketing

Answer Fidelity (Kesetiaan Jawaban AI terhadap Sumber)

Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Answer fidelity (kadang disebut faithfulness) adalah metrik yang menilai apakah jawaban AI benar-benar berakar pada dokumen sumber yang diberikan, bukan hasil halusinasi yang kebetulan terdengar wajar. Untuk brand Indonesia yang membangun chatbot berbasis RAG, metrik ini lebih penting dari sekadar "user puas" karena menyangkut tanggung jawab atas klaim yang dibuat AI.

Apa itu Answer Fidelity?

Answer fidelity menjawab pertanyaan: "apakah setiap pernyataan dalam jawaban AI bisa dilacak ke dokumen sumber?". Berbeda dengan akurasi yang menilai benar-salah faktual secara umum, fidelity fokus pada konsistensi internal antara konteks yang diberikan dan jawaban yang dihasilkan.

Analogi sederhana: anggap AI seperti analis yunior. Akurasi tinggi berarti dia memberi jawaban yang benar secara fakta. Fidelity tinggi berarti setiap kalimat di laporannya bisa ditunjukkan halaman sumbernya. Untuk konteks bisnis, fidelity sering lebih penting karena menjamin auditabilitas.

Cara Mengukur

Pendekatan	Cara kerja
LLM-as-judge	Model lain menilai apakah jawaban didukung konteks, dengan rubrik jelas
Sentence-level NLI	Setiap kalimat jawaban dicek implikasinya terhadap konteks
Citation match	Jawaban harus menyebut sumber, dan sumber harus benar-benar mengandung klaim
Hallucination probe	Eval harness khusus dengan kasus jebakan untuk memancing halusinasi

Banyak tim memakai kombinasi LLM-as-judge dan citation match agar pengukuran tetap praktis namun reliabel.

Kenapa Penting untuk Brand Indonesia?

Saat membantu klien membangun knowledge bot internal, satu kesalahan klasik adalah hanya mengukur "user satisfaction" via thumbs up. Pengguna sering memberi thumbs up untuk jawaban yang terdengar yakin meski faktanya keliru. Untuk industri yang regulasinya ketat seperti keuangan, kesehatan, atau pendidikan, ketidaktelitian ini bisa berujung sengketa. Answer fidelity memberi metrik objektif sebelum chatbot menyentuh pelanggan.

Standar penilaian publik seperti RAGAS menyediakan metrik faithfulness yang dapat diadaptasi tim Indonesia.

Pertanyaan Umum

Apa beda answer fidelity dengan akurasi?

Akurasi menilai benar-salah jawaban secara umum. Fidelity hanya menilai apakah jawaban setia pada konteks yang diberikan, terlepas dari kebenaran absolutnya.

Berapa skor fidelity yang dianggap baik untuk produksi?

Bervariasi per use case. Untuk chatbot internal, skor 0,85 ke atas umum dipakai sebagai threshold rilis. Untuk use case regulated, sebagian tim menetapkan 0,95.

Istilah Terkait

Eval Harness (Kerangka Evaluasi Otomatis Sistem AI)Hallucination Guardrail (Pengaman Halusinasi AI)LLM-as-Judge RAG (Retrieval-Augmented Generation)

Semua Istilah Ada pertanyaan? →