Digital Transformation
Dense Retrieval (Pencarian Berbasis Vektor)
Dense retrieval adalah teknik pencarian yang membandingkan vektor embedding query dan dokumen untuk menemukan kemiripan makna, bukan kemiripan kata kunci.
TL;DR: Dense retrieval menggunakan model embedding untuk merepresentasikan query dan dokumen sebagai vektor numerik berdimensi ratusan, lalu menghitung kemiripan kosinus untuk memeringkat hasil. Pendekatan ini menangkap makna semantik yang sering luput dari pencarian kata kunci tradisional.
Apa itu Dense Retrieval?
Dense retrieval mengubah teks menjadi vektor padat (dense vector) berisi nilai pecahan yang merepresentasikan makna kontekstual. Saat user mencari "cara hemat budget iklan", sistem mencari dokumen yang vektornya berdekatan, meskipun tidak mengandung kata "hemat" persis. Bandingkan dengan BM25 yang menghitung frekuensi kata kunci eksak. Dense retrieval jadi tulang punggung sistem RAG modern dan AI Search seperti Google AI Overview.
Cara Kerja
| Tahap | Aksi |
|---|---|
| Encoding | Query dan dokumen masuk ke model embedding (misal OpenAI text-embedding-3, Cohere embed) |
| Indexing | Vektor dokumen disimpan ke vector database (pgvector, Pinecone, Qdrant) |
| Similarity | Hitung cosine similarity atau dot product antara vektor query dan dokumen |
| Ranking | Dokumen diurutkan berdasarkan skor kemiripan tertinggi |
Kenapa Penting?
Untuk konten Indonesia yang sering campur bahasa formal dan informal, dense retrieval membantu sistem mengenali variasi frasa yang artinya sama. Tim Vito Atmo memakai pendekatan ini di proyek pencarian internal dokumentasi klien untuk menggantikan full-text search yang sering gagal di kueri panjang. Kelemahannya: dense retrieval kadang luput nama produk eksak atau kode SKU, jadi sering dikombinasi dengan sparse retrieval (BM25) menjadi hybrid search.
Pertanyaan Umum
Apa beda dense retrieval dengan vector search?
Vector search adalah operasi teknis pencarian vektor terdekat. Dense retrieval adalah pendekatan retrieval secara konseptual yang memakai vector search di belakang layar.
Apakah dense retrieval mengganti BM25?
Tidak menggantikan, melengkapi. BM25 unggul untuk pencocokan kata kunci eksak, dense retrieval unggul untuk niat semantik. Hybrid retrieval menggabung keduanya untuk hasil terbaik.
Istilah Terkait