Digital Transformation

RAG Citation Density

Vito Atmo
Vito Atmo·18 Mei 2026·0 kali dibaca·2 min baca

TL;DR: RAG Citation Density mengukur kerapatan kutipan terverifikasi dalam sebuah dokumen, dihitung per paragraf atau per 100 kata. Retriever AI cenderung memilih chunk dengan citation density tinggi karena dianggap lebih dapat diverifikasi.

Apa itu RAG Citation Density?

RAG Citation Density adalah metrik kualitas yang dipakai dalam pipeline Retrieval-Augmented Generation untuk menilai apakah sebuah dokumen layak menjadi sumber jawaban LLM. Berbeda dengan citation density umum yang fokus pada teks marketing, RAG Citation Density mengevaluasi dokumen dari sudut pandang retriever, yaitu apakah setiap klaim bisa dirujuk ke sumber asli. Analoginya seperti buku teks akademik versus buku populer: keduanya membahas topik sama, tapi yang akademik penuh footnote sehingga lebih kredibel saat dikutip.

Cara Mengukurnya

MetrikFormula sederhanaBatas ideal
Kutipan per paragraftotal kutipan dibagi total paragrafminimum 0,3
Kutipan per 100 katatotal kutipan dibagi (total kata dibagi 100)minimum 0,5
Rasio paragraf bersumberparagraf dengan kutipan dibagi total paragrafdi atas 40%
Diversitas sumberjumlah domain unik yang dikutipminimum 3 untuk artikel panjang

Batas di atas adalah pedoman praktisi, bukan standar tunggal. Variasi tergantung domain dan tipe konten.

Kenapa Penting?

Dalam beberapa proyek terakhir di vitoatmo.com, artikel yang ditulis ulang dengan menaikkan citation density dari 0,1 ke 0,5 per paragraf mengalami kenaikan rasio kutipan di Perplexity dan ChatGPT Search di kisaran 15-25% pada bulan kedua. Sinyal ini selaras dengan grounding density yang lebih spesifik mengukur kerapatan klaim ter-grounding. Riset publik tentang pendekatan retrieval-augmented yang relevan dapat dibaca di arXiv: Retrieval-Augmented Generation untuk Knowledge-Intensive NLP.

Pertanyaan Umum

Apakah terlalu banyak kutipan menurunkan kualitas?

Bisa, jika kutipan tidak relevan atau berulang. Targetnya adalah kepadatan yang sesuai topik, bukan menumpuk sumber.

Sebagian retriever memperlakukan internal link sebagai sinyal lemah. Kutipan dengan domain otoritatif eksternal bobotnya lebih tinggi.

Bagikan