Digital Transformation
LLM Context Deduplication Ratio
TL;DR: LLM Context Deduplication Ratio adalah rasio pengurangan token konteks setelah pipeline RAG membuang pasangan potongan dokumen yang secara semantik duplikat. Rasio sehat untuk pipeline RAG bahasa Indonesia: 1,4:1 hingga 2,2:1. Tanpa deduplikasi, biaya inferensi membengkak dan kualitas jawaban menurun karena model melihat fakta sama berulang-ulang.
Apa itu LLM Context Deduplication Ratio?
LLM Context Deduplication Ratio mengukur seberapa efisien pipeline retrieval-augmented generation (RAG) membersihkan duplikasi sebelum mengirim konteks ke model. Banyak pipeline naif menggabungkan top-k chunk dari vector search tanpa filter, padahal chunk yang skornya berdekatan sering memuat informasi nyaris identik.
Rasio 2:1 artinya pipeline berhasil membuang setengah konteks duplikat tanpa kehilangan informasi unik. Konsep ini berkaitan erat dengan LLM context compaction ratio, tapi fokus berbeda: compaction merangkum, deduplication membuang yang redundan.
Cara Kerja dan Pengukuran
Pipeline deduplikasi standar:
- Vector search ambil top-k chunk (misal 24 chunk)
- Hitung cosine similarity antar pasangan
- Buang chunk dengan similarity di atas threshold (umumnya 0,88)
- Ukur rasio: token sebelum / token setelah
| Rasio Deduplication | Karakter Pipeline |
|---|---|
| Di bawah 1,1:1 | Tidak ada deduplikasi efektif, biaya boros |
| 1,4:1 hingga 2,2:1 | Sehat, hemat biaya tanpa kehilangan informasi |
| Di atas 3:1 | Risiko membuang fakta unik, perlu audit |
Berdasarkan praktik yang Vito Atmo terapkan di pipeline RAG client e-commerce dan SaaS, rasio 1,8:1 menjadi titik seimbang antara biaya dan kualitas jawaban. Referensi metodologi di paper Retrieval-Augmented Generation Meta AI.
Kenapa Penting?
Bagi pebisnis Indonesia yang membayar inferensi per token, deduplikasi memangkas 30 hingga 55 persen biaya konteks tanpa menurunkan kualitas. Tambahannya, deduplikasi mengurangi risiko LLM context poisoning saat satu chunk salah masuk ke konteks puluhan kali.
Pertanyaan Umum
Apa beda deduplication dengan compaction?
Deduplication membuang chunk redundan utuh. Compaction merangkum konteks panjang jadi padat. Keduanya bisa dipakai bersama.
Berapa threshold cosine similarity yang aman untuk bahasa Indonesia?
Praktik umum di 0,86 hingga 0,90. Di bawah 0,80 risiko membuang informasi berbeda; di atas 0,92 deduplikasi hampir tidak terjadi.
Istilah Terkait