Digital Transformation
RAG Retrieval Precision
TL;DR: RAG retrieval precision adalah rasio chunk dokumen yang benar-benar relevan dengan pertanyaan dibanding total chunk yang diambil sistem RAG, dipakai untuk mengukur kualitas tahap retrieval sebelum LLM menjawab. Nilai precision di atas 0,75 umumnya dianggap aman untuk produksi.
Apa itu RAG Retrieval Precision?
RAG retrieval precision adalah metrik kualitas tahap retrieval pada sistem RAG. Ketika user bertanya, sistem RAG mengambil sejumlah chunk dari vector database, lalu menyerahkannya ke LLM untuk dijadikan konteks jawaban. Precision mengukur berapa persen dari chunk yang diambil benar-benar relevan dengan pertanyaan.
Rumus dasar: precision = (jumlah chunk relevan diambil) / (total chunk diambil). Misalnya kalau sistem mengambil 10 chunk dan hanya 6 yang relevan, precision = 0,6. Metrik ini sering dipasangkan dengan LLM context recall untuk mengukur kualitas retrieval secara lengkap. Praktik standar di LLM eval harness menjadikan precision sebagai gate utama sebelum testing generasi jawaban.
Cara Mengukur RAG Retrieval Precision
| Langkah | Aksi |
|---|---|
| Siapkan ground truth | Daftar pertanyaan dengan chunk yang seharusnya muncul |
| Jalankan retrieval | Ambil top-k chunk dari vector DB untuk setiap pertanyaan |
| Anotasi relevansi | Tandai chunk yang benar-benar menjawab pertanyaan |
| Hitung rasio | precision = relevan / total diambil per pertanyaan |
| Rata-rata seluruh sample | Precision agregat untuk seluruh test set |
Kenapa Penting bagi Marketer Indonesia?
Banyak marketer Indonesia kini membangun chatbot internal untuk help center atau FAQ. Tanpa precision yang baik, chatbot akan memberi jawaban ngawur karena konteks yang masuk ke LLM tidak relevan. Berdasarkan praktik di proyek client, retrieval precision di bawah 0,5 menyebabkan halusinasi naik 2 sampai 4 kali lipat. Threshold aman umumnya 0,7 sampai 0,85 untuk use case customer service.
Referensi praktis: Ragas Documentation sebagai framework evaluasi RAG yang banyak diadopsi.
Pertanyaan Umum
Apa beda precision dengan recall di RAG?
Precision mengukur ketepatan chunk yang diambil (berapa yang relevan dari yang diambil), sedangkan recall mengukur kelengkapan (berapa chunk relevan yang berhasil diambil dari total chunk relevan yang ada).
Berapa nilai precision yang aman untuk produksi?
Umumnya 0,7 sampai 0,85. Di bawah 0,5 sistem RAG cenderung mudah halusinasi. Di atas 0,9 biasanya sudah trade-off dengan latensi retrieval yang lebih lambat.
Istilah Terkait