Digital Transformation

Sparse Retrieval (Pencarian Berbasis Kata Kunci)

Vito Atmo·8 Mei 2026·4 kali dibaca·2 min baca

TL;DR: Sparse retrieval merepresentasikan teks sebagai vektor jarang berdimensi sebesar ukuran kosakata, dengan nilai non-nol hanya pada kata yang muncul. Algoritma populer seperti BM25 memakai pendekatan ini dan unggul untuk kueri yang mengandung istilah teknis, kode produk, atau nama spesifik.

Apa itu Sparse Retrieval?

Sparse retrieval menyimpan dokumen sebagai daftar pasangan kata-bobot, mayoritas elemen vektornya bernilai nol. Saat user mencari "next.js 15 streaming metadata", sistem mencari dokumen yang punya skor tinggi pada kata-kata tersebut. Pendekatan ini sudah dipakai search engine selama puluhan tahun dan masih jadi baseline kuat di tahun 2026. Bandingkan dengan dense retrieval yang menangkap makna semantik melalui embedding padat.

Kelebihan dan Kekurangan

Aspek	Sparse	Dense
Kueri istilah teknis spesifik	Sangat baik	Kadang luput
Kueri parafrase atau sinonim	Lemah	Sangat baik
Biaya komputasi	Rendah	Tinggi
Interpretabilitas skor	Tinggi	Rendah
Kebutuhan training	Tidak perlu	Perlu model embedding

Kenapa Penting?

Untuk e-commerce atau dokumentasi teknis Indonesia, sparse retrieval lebih akurat saat user mencari kode SKU, nama varian, atau istilah hukum eksak. Dalam beberapa proyek search bar internal yang Vito Atmo bangun, kombinasi sparse + dense (lihat hybrid search) terbukti memberi recall lebih tinggi tanpa mengorbankan precision pada kueri eksak. RAG modern juga sering hybrid karena alasan yang sama.

Pertanyaan Umum

Apakah sparse retrieval sudah usang?

Tidak. Justru riset terbaru (SPLADE, ColBERT) memodernisasi sparse retrieval dengan memakai model bahasa untuk menghitung bobot kata, menggabungkan keunggulan keduanya.

Kapan harus pakai sparse saja?

Saat dataset kecil, kueri user dominan istilah eksak, dan budget komputasi terbatas. Banyak situs UMKM masih cukup pakai BM25 standar dari Postgres atau Elasticsearch.

Istilah Terkait

BM25 (Best Matching 25)Dense Retrieval (Pencarian Berbasis Vektor)Embedding Hybrid Search RAG (Retrieval-Augmented Generation)Streaming Metadata Structured Data Vector Search (Semantic Search)

Semua Istilah Ada pertanyaan? →