Digital Transformation
RAG Evaluation (Evaluasi Sistem RAG)
RAG Evaluation adalah proses sistematis mengukur kualitas Retrieval Augmented Generation, mulai dari relevansi dokumen hingga akurasi jawaban akhir.
TL;DR: RAG Evaluation adalah praktik mengukur dua hal sekaligus: seberapa baik sistem menemukan dokumen yang relevan, dan seberapa setia model bahasa menjawab berdasarkan dokumen tersebut. Tanpa evaluasi, perbaikan RAG hanya bersifat tebakan.
Apa itu RAG Evaluation?
RAG Evaluation adalah kerangka pengukuran kualitas pipeline RAG yang menggabungkan tahap retrieval dan tahap generation. Pengukuran retrieval menilai apakah dokumen yang ditarik benar-benar relevan dengan pertanyaan, sedangkan pengukuran generation menilai apakah jawaban setia pada dokumen, lengkap, dan tidak halusinasi. Pendekatan ini banyak diadopsi sejak munculnya kerangka seperti RAGAS dan TruLens.
Metrik Inti
| Metrik | Apa yang Diukur |
|---|---|
| Context Precision | Berapa persen dokumen yang ditarik benar-benar relevan |
| Context Recall | Apakah dokumen yang dibutuhkan untuk menjawab benar tertarik |
| Faithfulness | Seberapa setia jawaban pada dokumen sumber |
| Answer Relevancy | Apakah jawaban menjawab pertanyaan, bukan menyimpang |
| Answer Correctness | Akurasi terhadap ground truth (jika tersedia) |
Kenapa Penting?
Tim yang membangun fitur AI sering merasa hasilnya "kurang akurat" tetapi tidak tahu di mana letak masalahnya. RAG Evaluation memisahkan masalah retrieval dari masalah generation. Jika context precision rendah, perbaiki indexing, Reranking, atau Chunking Strategy. Jika faithfulness rendah, perbaiki prompt atau ganti model. Tanpa metrik ini, optimasi mudah salah sasaran. Kerangka pengukurannya bisa dilihat di dokumentasi RAGAS.
Pertanyaan Umum
Apakah perlu ground truth dataset?
Tidak selalu. Beberapa metrik seperti faithfulness bisa diukur tanpa ground truth, memakai LLM-as-judge. Untuk akurasi penuh, dataset evaluasi tetap disarankan.
Berapa sering evaluasi dijalankan?
Idealnya pada setiap perubahan signifikan: ganti model, ganti embedding, ubah chunking, atau update knowledge base.