Digital Transformation

RAG Evaluation (Evaluasi Sistem RAG)

RAG Evaluation adalah proses sistematis mengukur kualitas Retrieval Augmented Generation, mulai dari relevansi dokumen hingga akurasi jawaban akhir.

Vito Atmo
Vito Atmo·29 April 2026·0 kali dibaca·2 min baca

TL;DR: RAG Evaluation adalah praktik mengukur dua hal sekaligus: seberapa baik sistem menemukan dokumen yang relevan, dan seberapa setia model bahasa menjawab berdasarkan dokumen tersebut. Tanpa evaluasi, perbaikan RAG hanya bersifat tebakan.

Apa itu RAG Evaluation?

RAG Evaluation adalah kerangka pengukuran kualitas pipeline RAG yang menggabungkan tahap retrieval dan tahap generation. Pengukuran retrieval menilai apakah dokumen yang ditarik benar-benar relevan dengan pertanyaan, sedangkan pengukuran generation menilai apakah jawaban setia pada dokumen, lengkap, dan tidak halusinasi. Pendekatan ini banyak diadopsi sejak munculnya kerangka seperti RAGAS dan TruLens.

Metrik Inti

MetrikApa yang Diukur
Context PrecisionBerapa persen dokumen yang ditarik benar-benar relevan
Context RecallApakah dokumen yang dibutuhkan untuk menjawab benar tertarik
FaithfulnessSeberapa setia jawaban pada dokumen sumber
Answer RelevancyApakah jawaban menjawab pertanyaan, bukan menyimpang
Answer CorrectnessAkurasi terhadap ground truth (jika tersedia)

Kenapa Penting?

Tim yang membangun fitur AI sering merasa hasilnya "kurang akurat" tetapi tidak tahu di mana letak masalahnya. RAG Evaluation memisahkan masalah retrieval dari masalah generation. Jika context precision rendah, perbaiki indexing, Reranking, atau Chunking Strategy. Jika faithfulness rendah, perbaiki prompt atau ganti model. Tanpa metrik ini, optimasi mudah salah sasaran. Kerangka pengukurannya bisa dilihat di dokumentasi RAGAS.

Pertanyaan Umum

Apakah perlu ground truth dataset?

Tidak selalu. Beberapa metrik seperti faithfulness bisa diukur tanpa ground truth, memakai LLM-as-judge. Untuk akurasi penuh, dataset evaluasi tetap disarankan.

Berapa sering evaluasi dijalankan?

Idealnya pada setiap perubahan signifikan: ganti model, ganti embedding, ubah chunking, atau update knowledge base.

Bagikan