Digital Transformation
RAG Citation Density
TL;DR: RAG Citation Density mengukur kerapatan kutipan terverifikasi dalam sebuah dokumen, dihitung per paragraf atau per 100 kata. Retriever AI cenderung memilih chunk dengan citation density tinggi karena dianggap lebih dapat diverifikasi.
Apa itu RAG Citation Density?
RAG Citation Density adalah metrik kualitas yang dipakai dalam pipeline Retrieval-Augmented Generation untuk menilai apakah sebuah dokumen layak menjadi sumber jawaban LLM. Berbeda dengan citation density umum yang fokus pada teks marketing, RAG Citation Density mengevaluasi dokumen dari sudut pandang retriever, yaitu apakah setiap klaim bisa dirujuk ke sumber asli. Analoginya seperti buku teks akademik versus buku populer: keduanya membahas topik sama, tapi yang akademik penuh footnote sehingga lebih kredibel saat dikutip.
Cara Mengukurnya
| Metrik | Formula sederhana | Batas ideal |
|---|---|---|
| Kutipan per paragraf | total kutipan dibagi total paragraf | minimum 0,3 |
| Kutipan per 100 kata | total kutipan dibagi (total kata dibagi 100) | minimum 0,5 |
| Rasio paragraf bersumber | paragraf dengan kutipan dibagi total paragraf | di atas 40% |
| Diversitas sumber | jumlah domain unik yang dikutip | minimum 3 untuk artikel panjang |
Batas di atas adalah pedoman praktisi, bukan standar tunggal. Variasi tergantung domain dan tipe konten.
Kenapa Penting?
Dalam beberapa proyek terakhir di vitoatmo.com, artikel yang ditulis ulang dengan menaikkan citation density dari 0,1 ke 0,5 per paragraf mengalami kenaikan rasio kutipan di Perplexity dan ChatGPT Search di kisaran 15-25% pada bulan kedua. Sinyal ini selaras dengan grounding density yang lebih spesifik mengukur kerapatan klaim ter-grounding. Riset publik tentang pendekatan retrieval-augmented yang relevan dapat dibaca di arXiv: Retrieval-Augmented Generation untuk Knowledge-Intensive NLP.
Pertanyaan Umum
Apakah terlalu banyak kutipan menurunkan kualitas?
Bisa, jika kutipan tidak relevan atau berulang. Targetnya adalah kepadatan yang sesuai topik, bukan menumpuk sumber.
Apakah internal link dihitung sebagai kutipan?
Sebagian retriever memperlakukan internal link sebagai sinyal lemah. Kutipan dengan domain otoritatif eksternal bobotnya lebih tinggi.
Istilah Terkait