Digital Transformation
Rerank Model
TL;DR: Rerank model adalah lapisan kedua di pipeline Retrieval-Augmented Generation (RAG) yang menyaring ulang 50 sampai 100 kandidat dokumen hasil pencarian vektor. Model ini mengurutkan dokumen berdasarkan relevansi terhadap pertanyaan pengguna, lalu hanya 5 sampai 10 dokumen teratas yang dikirim ke LLM utama. Hasilnya, jawaban LLM lebih akurat dan biaya inferensi turun.
Apa itu Rerank Model?
Rerank model adalah cross-encoder ringan yang membaca pasangan pertanyaan dan dokumen secara bersamaan, lalu memberi skor relevansi tunggal. Berbeda dari pencarian vektor biasa yang menghitung kemiripan embedding secara terpisah, rerank model menilai kecocokan kontekstual penuh. Dalam praktik Retrieval-Augmented Generation, rerank dipasang setelah retrieval awal pakai BM25 atau hybrid search.
Analogi sederhana: pencarian vektor seperti satpam yang menyaring 100 tamu masuk berdasarkan undangan, sementara rerank model adalah resepsionis yang memeriksa keperluan tiap tamu satu per satu sebelum mempersilakan ke ruang utama.
Cara Kerja di Pipeline RAG
| Tahap | Tool | Jumlah Dokumen | Latensi |
|---|---|---|---|
| Retrieval awal | Vector DB + BM25 | 50-100 | 30-80 ms |
| Rerank | Cross-encoder (Cohere Rerank, BGE Reranker) | 5-10 | 120-250 ms |
| Generation | LLM utama (Claude, GPT) | 1 jawaban | 1-3 detik |
Model rerank populer yang dipakai di Indonesia per April 2026 adalah Cohere Rerank v3, BGE Reranker v2, dan Jina Reranker. Skornya biasanya 0 sampai 1, dengan ambang 0,4 sebagai filter standar.
Kenapa Penting?
Tanpa rerank, LLM utama menerima dokumen yang relevansinya tipis, sehingga jawaban jadi melebar atau menyinggung sumber yang salah. Dari pengalaman saya menangani RAG untuk asisten dokumentasi Atmo LMS, menambah rerank menaikkan akurasi jawaban dari 0,62 ke 0,84 dan menurunkan token konteks sekitar 38 persen. Hemat token berarti hemat biaya inferensi, terutama untuk konsultan dan UMKM yang memakai pay-per-token.
Rerank juga relevan buat AEO: konten yang konsisten muncul di top-5 setelah rerank cenderung disitasi mesin AI seperti Perplexity dan ChatGPT lebih sering.
Pertanyaan Umum
Apakah rerank model sama dengan embedding model?
Tidak. Embedding model mengubah teks jadi vektor untuk pencarian awal, sementara rerank model membandingkan pasangan query dan dokumen secara langsung untuk skor relevansi yang lebih tajam.
Berapa banyak kandidat yang ideal sebelum rerank?
Umumnya 50 sampai 100 kandidat. Di bawah 50, rerank kekurangan opsi. Di atas 100, latensi naik tanpa peningkatan kualitas berarti.
Istilah Terkait