Digital Transformation

Metadata Filtering (Penyaringan Metadata di RAG)

Metadata filtering adalah teknik membatasi pencarian vektor hanya pada subset dokumen yang memenuhi kriteria atribut, seperti tanggal, kategori, bahasa, atau pemilik, sebelum atau sesudah perhitungan kemiripan dilakukan.

Vito Atmo
Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Metadata filtering adalah cara mempersempit hasil pencarian di vector database dengan menyaring dokumen berdasarkan atribut, misalnya tanggal terbit, bahasa, kategori, atau ID pelanggan. Penting di sistem RAG bisnis supaya jawaban AI tidak mencampur data lama dengan baru, atau dokumen klien A dengan klien B.

Apa itu Metadata Filtering?

Metadata filtering adalah lapisan kontrol di vector database yang memungkinkan kueri pencarian dibatasi pada dokumen dengan atribut tertentu. Setiap chunk yang disimpan biasanya punya field tambahan seperti category, language, published_at, tenant_id, atau source. Saat melakukan semantic search, sistem hanya mempertimbangkan chunk yang lolos filter, bukan seluruh corpus.

Anggap saja seperti rak perpustakaan dengan label warna. Daripada pustakawan membaca seluruh isi perpustakaan, ia hanya membaca rak warna biru (kategori "Marketing 2026"). Pencarian jadi lebih cepat, lebih akurat, dan lebih aman.

Pola Implementasi Umum

PolaContohCatatan
Pre-filterFilter dulu, baru hitung kemiripanHemat compute, kadang miss recall
Post-filterHitung kemiripan top-k, baru filterRecall stabil, bisa kekurangan hasil
HybridFilter + hybrid searchDefault untuk produksi
Tenant isolationFilter wajib per tenant_idWajib di SaaS B2B

Banyak vector store modern (Pinecone, Qdrant, pgvector dengan ivfflat/hnsw) sudah menyediakan filter ekspresi seperti category = 'pricing' AND published_at > '2026-01-01' langsung di level query.

Kenapa Penting?

Untuk pebisnis Indonesia yang menjalankan chatbot multi-brand atau platform SaaS multi-tenant, metadata filtering adalah pengaman kritis. Tanpa filter tenant_id, sebuah AI bisa keliru menjawab pelanggan brand A dengan dokumen brand B, dan ini langsung berdampak pada kepercayaan pelanggan. Kasus lain: artikel kebijakan yang sudah usang ikut muncul di jawaban karena filter tanggal tidak diterapkan. Praktik standar di industri menyarankan filter dasar minimum: bahasa, tanggal validitas, dan pemilik konten.

Pertanyaan Umum

Apa beda metadata filtering dengan reranking?

Filtering bekerja sebelum atau sesudah pencarian dengan aturan boolean tegas (lolos atau tidak). Reranking memberi skor relevansi pada kandidat yang sudah lolos. Keduanya saling melengkapi.

Apakah filtering memperlambat pencarian?

Tergantung indeks. Filter pada field yang ber-indeks biasanya cepat. Filter pada field tanpa indeks di corpus besar bisa memperlambat secara signifikan, jadi rancang skema metadata sejak awal.

Bagikan