Digital Transformation

RAG Evaluation (Evaluasi Sistem RAG)

Vito Atmo·29 April 2026·2 kali dibaca·2 min baca

TL;DR: RAG Evaluation adalah praktik mengukur dua hal sekaligus: seberapa baik sistem menemukan dokumen yang relevan, dan seberapa setia model bahasa menjawab berdasarkan dokumen tersebut. Tanpa evaluasi, perbaikan RAG hanya bersifat tebakan.

Apa itu RAG Evaluation?

RAG Evaluation adalah kerangka pengukuran kualitas pipeline RAG yang menggabungkan tahap retrieval dan tahap generation. Pengukuran retrieval menilai apakah dokumen yang ditarik benar-benar relevan dengan pertanyaan, sedangkan pengukuran generation menilai apakah jawaban setia pada dokumen, lengkap, dan tidak halusinasi. Pendekatan ini banyak diadopsi sejak munculnya kerangka seperti RAGAS dan TruLens.

Metrik Inti

Metrik	Apa yang Diukur
Context Precision	Berapa persen dokumen yang ditarik benar-benar relevan
Context Recall	Apakah dokumen yang dibutuhkan untuk menjawab benar tertarik
Faithfulness	Seberapa setia jawaban pada dokumen sumber
Answer Relevancy	Apakah jawaban menjawab pertanyaan, bukan menyimpang
Answer Correctness	Akurasi terhadap ground truth (jika tersedia)

Kenapa Penting?

Tim yang membangun fitur AI sering merasa hasilnya "kurang akurat" tetapi tidak tahu di mana letak masalahnya. RAG Evaluation memisahkan masalah retrieval dari masalah generation. Jika context precision rendah, perbaiki indexing, Reranking, atau Chunking Strategy. Jika faithfulness rendah, perbaiki prompt atau ganti model. Tanpa metrik ini, optimasi mudah salah sasaran. Kerangka pengukurannya bisa dilihat di dokumentasi RAGAS.

Pertanyaan Umum

Apakah perlu ground truth dataset?

Tidak selalu. Beberapa metrik seperti faithfulness bisa diukur tanpa ground truth, memakai LLM-as-judge. Untuk akurasi penuh, dataset evaluasi tetap disarankan.

Berapa sering evaluasi dijalankan?

Idealnya pada setiap perubahan signifikan: ganti model, ganti embedding, ubah chunking, atau update knowledge base.

Istilah Terkait

Chunking Strategy Embedding LLM Grounding RAG (Retrieval-Augmented Generation)Reranking

Semua Istilah Ada pertanyaan? →