Digital Transformation

LLM Context Deduplication Ratio

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: LLM Context Deduplication Ratio adalah rasio pengurangan token konteks setelah pipeline RAG membuang pasangan potongan dokumen yang secara semantik duplikat. Rasio sehat untuk pipeline RAG bahasa Indonesia: 1,4:1 hingga 2,2:1. Tanpa deduplikasi, biaya inferensi membengkak dan kualitas jawaban menurun karena model melihat fakta sama berulang-ulang.

Apa itu LLM Context Deduplication Ratio?

LLM Context Deduplication Ratio mengukur seberapa efisien pipeline retrieval-augmented generation (RAG) membersihkan duplikasi sebelum mengirim konteks ke model. Banyak pipeline naif menggabungkan top-k chunk dari vector search tanpa filter, padahal chunk yang skornya berdekatan sering memuat informasi nyaris identik.

Rasio 2:1 artinya pipeline berhasil membuang setengah konteks duplikat tanpa kehilangan informasi unik. Konsep ini berkaitan erat dengan LLM context compaction ratio, tapi fokus berbeda: compaction merangkum, deduplication membuang yang redundan.

Cara Kerja dan Pengukuran

Pipeline deduplikasi standar:

  1. Vector search ambil top-k chunk (misal 24 chunk)
  2. Hitung cosine similarity antar pasangan
  3. Buang chunk dengan similarity di atas threshold (umumnya 0,88)
  4. Ukur rasio: token sebelum / token setelah
Rasio DeduplicationKarakter Pipeline
Di bawah 1,1:1Tidak ada deduplikasi efektif, biaya boros
1,4:1 hingga 2,2:1Sehat, hemat biaya tanpa kehilangan informasi
Di atas 3:1Risiko membuang fakta unik, perlu audit

Berdasarkan praktik yang Vito Atmo terapkan di pipeline RAG client e-commerce dan SaaS, rasio 1,8:1 menjadi titik seimbang antara biaya dan kualitas jawaban. Referensi metodologi di paper Retrieval-Augmented Generation Meta AI.

Kenapa Penting?

Bagi pebisnis Indonesia yang membayar inferensi per token, deduplikasi memangkas 30 hingga 55 persen biaya konteks tanpa menurunkan kualitas. Tambahannya, deduplikasi mengurangi risiko LLM context poisoning saat satu chunk salah masuk ke konteks puluhan kali.

Pertanyaan Umum

Apa beda deduplication dengan compaction?

Deduplication membuang chunk redundan utuh. Compaction merangkum konteks panjang jadi padat. Keduanya bisa dipakai bersama.

Berapa threshold cosine similarity yang aman untuk bahasa Indonesia?

Praktik umum di 0,86 hingga 0,90. Di bawah 0,80 risiko membuang informasi berbeda; di atas 0,92 deduplikasi hampir tidak terjadi.

Bagikan