Digital Transformation
BM25 (Best Matching 25)
BM25 adalah algoritma ranking berbasis frekuensi kata kunci yang menjadi fondasi search engine klasik. Digunakan luas di Elasticsearch, OpenSearch, dan kombinasi hybrid search bersama vector search.
TL;DR: BM25 adalah algoritma ranking dokumen berbasis Term Frequency dan Inverse Document Frequency yang sudah dipakai sejak akhir 1990-an. Hingga 2026 tetap relevan karena cepat, murah, dan kuat untuk pencocokan kata kunci eksak. Banyak sistem hybrid search modern menggabungkan BM25 dengan vector search untuk hasil terbaik.
Apa itu BM25?
BM25 (Best Matching 25) adalah keluarga algoritma scoring relevansi dokumen yang dikembangkan oleh Stephen Robertson dan tim. Ide dasarnya: dokumen dianggap lebih relevan untuk sebuah kueri kalau ia mengandung kata-kata kunci dari kueri itu, namun dengan saturasi (kata yang muncul terlalu sering tidak terus menambah skor) dan penalti panjang dokumen.
Bandingkan dengan semantic search. BM25 bekerja di level token, sementara semantic search bekerja di level makna lewat embedding. Keduanya bukan musuh. Kombinasi keduanya disebut hybrid search.
Komponen Skor BM25
| Komponen | Peran |
|---|---|
| TF (Term Frequency) | Berapa kali kata kueri muncul di dokumen |
| IDF (Inverse Doc Freq) | Bobot lebih tinggi untuk kata yang langka di corpus |
| Doc Length Norm | Penalti dokumen yang terlalu panjang |
| k1, b | Parameter saturasi dan panjang yang bisa dituning |
Implementasi praktis tersedia di Elasticsearch, OpenSearch, dan Postgres extension seperti pg_trgm atau pg_search. Dokumentasi resmi Elastic memberi penjelasan teknis yang baik di BM25 similarity guide.
Kenapa Masih Relevan di Era AI?
Praktik di lapangan menunjukkan BM25 unggul untuk: pencarian SKU, kode produk, nama brand, query yang tepat, dan domain dengan kosa kata khusus. Saat membangun hybrid search untuk e-commerce, saya melihat BM25 tetap menjadi backbone karena vector search sendirian sering kalah pada kueri eksak seperti SKU. Solusi yang bekerja: skor BM25 dan vector di-blend lalu di-rerank.
Untuk marketer dan tim produk Indonesia, ini relevan saat membangun search internal di website e-commerce, knowledge base, atau alat dokumentasi. Skala kecil sampai menengah, BM25 saja sudah cukup. Skala besar atau domain semantik kompleks, baru tambah vector.
Pertanyaan Umum
Apakah BM25 sudah usang dibanding vector search?
Tidak. BM25 tetap kompetitif untuk pencarian keyword eksak dan domain dengan kosa kata khusus. Banyak sistem produksi memakai hybrid BM25 + vector untuk ranking optimal.
Apa beda BM25 dengan TF-IDF?
BM25 adalah pengembangan dari TF-IDF. Bedanya: BM25 menambah saturasi term frequency dan normalisasi panjang dokumen, sehingga lebih stabil pada dokumen panjang.
Istilah Terkait