Digital Transformation

Sparse Retrieval (Pencarian Berbasis Kata Kunci)

Sparse retrieval adalah teknik pencarian yang merepresentasikan dokumen sebagai vektor jarang berisi skor per kata, dipakai BM25 dan TF-IDF untuk pencocokan kata kunci eksak.

Vito Atmo
Vito Atmo·8 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Sparse retrieval merepresentasikan teks sebagai vektor jarang berdimensi sebesar ukuran kosakata, dengan nilai non-nol hanya pada kata yang muncul. Algoritma populer seperti BM25 memakai pendekatan ini dan unggul untuk kueri yang mengandung istilah teknis, kode produk, atau nama spesifik.

Apa itu Sparse Retrieval?

Sparse retrieval menyimpan dokumen sebagai daftar pasangan kata-bobot, mayoritas elemen vektornya bernilai nol. Saat user mencari "next.js 15 streaming metadata", sistem mencari dokumen yang punya skor tinggi pada kata-kata tersebut. Pendekatan ini sudah dipakai search engine selama puluhan tahun dan masih jadi baseline kuat di tahun 2026. Bandingkan dengan dense retrieval yang menangkap makna semantik melalui embedding padat.

Kelebihan dan Kekurangan

AspekSparseDense
Kueri istilah teknis spesifikSangat baikKadang luput
Kueri parafrase atau sinonimLemahSangat baik
Biaya komputasiRendahTinggi
Interpretabilitas skorTinggiRendah
Kebutuhan trainingTidak perluPerlu model embedding

Kenapa Penting?

Untuk e-commerce atau dokumentasi teknis Indonesia, sparse retrieval lebih akurat saat user mencari kode SKU, nama varian, atau istilah hukum eksak. Dalam beberapa proyek search bar internal yang Vito Atmo bangun, kombinasi sparse + dense (lihat hybrid search) terbukti memberi recall lebih tinggi tanpa mengorbankan precision pada kueri eksak. RAG modern juga sering hybrid karena alasan yang sama.

Pertanyaan Umum

Apakah sparse retrieval sudah usang?

Tidak. Justru riset terbaru (SPLADE, ColBERT) memodernisasi sparse retrieval dengan memakai model bahasa untuk menghitung bobot kata, menggabungkan keunggulan keduanya.

Kapan harus pakai sparse saja?

Saat dataset kecil, kueri user dominan istilah eksak, dan budget komputasi terbatas. Banyak situs UMKM masih cukup pakai BM25 standar dari Postgres atau Elasticsearch.

Bagikan