Digital Transformation
Sparse Retrieval (Pencarian Berbasis Kata Kunci)
Sparse retrieval adalah teknik pencarian yang merepresentasikan dokumen sebagai vektor jarang berisi skor per kata, dipakai BM25 dan TF-IDF untuk pencocokan kata kunci eksak.
TL;DR: Sparse retrieval merepresentasikan teks sebagai vektor jarang berdimensi sebesar ukuran kosakata, dengan nilai non-nol hanya pada kata yang muncul. Algoritma populer seperti BM25 memakai pendekatan ini dan unggul untuk kueri yang mengandung istilah teknis, kode produk, atau nama spesifik.
Apa itu Sparse Retrieval?
Sparse retrieval menyimpan dokumen sebagai daftar pasangan kata-bobot, mayoritas elemen vektornya bernilai nol. Saat user mencari "next.js 15 streaming metadata", sistem mencari dokumen yang punya skor tinggi pada kata-kata tersebut. Pendekatan ini sudah dipakai search engine selama puluhan tahun dan masih jadi baseline kuat di tahun 2026. Bandingkan dengan dense retrieval yang menangkap makna semantik melalui embedding padat.
Kelebihan dan Kekurangan
| Aspek | Sparse | Dense |
|---|---|---|
| Kueri istilah teknis spesifik | Sangat baik | Kadang luput |
| Kueri parafrase atau sinonim | Lemah | Sangat baik |
| Biaya komputasi | Rendah | Tinggi |
| Interpretabilitas skor | Tinggi | Rendah |
| Kebutuhan training | Tidak perlu | Perlu model embedding |
Kenapa Penting?
Untuk e-commerce atau dokumentasi teknis Indonesia, sparse retrieval lebih akurat saat user mencari kode SKU, nama varian, atau istilah hukum eksak. Dalam beberapa proyek search bar internal yang Vito Atmo bangun, kombinasi sparse + dense (lihat hybrid search) terbukti memberi recall lebih tinggi tanpa mengorbankan precision pada kueri eksak. RAG modern juga sering hybrid karena alasan yang sama.
Pertanyaan Umum
Apakah sparse retrieval sudah usang?
Tidak. Justru riset terbaru (SPLADE, ColBERT) memodernisasi sparse retrieval dengan memakai model bahasa untuk menghitung bobot kata, menggabungkan keunggulan keduanya.
Kapan harus pakai sparse saja?
Saat dataset kecil, kueri user dominan istilah eksak, dan budget komputasi terbatas. Banyak situs UMKM masih cukup pakai BM25 standar dari Postgres atau Elasticsearch.
Istilah Terkait