Digital Transformation

BM25 (Best Matching 25)

BM25 adalah algoritma ranking berbasis frekuensi kata kunci yang menjadi fondasi search engine klasik. Digunakan luas di Elasticsearch, OpenSearch, dan kombinasi hybrid search bersama vector search.

Vito Atmo
Vito Atmo·30 April 2026·0 kali dibaca·2 min baca

TL;DR: BM25 adalah algoritma ranking dokumen berbasis Term Frequency dan Inverse Document Frequency yang sudah dipakai sejak akhir 1990-an. Hingga 2026 tetap relevan karena cepat, murah, dan kuat untuk pencocokan kata kunci eksak. Banyak sistem hybrid search modern menggabungkan BM25 dengan vector search untuk hasil terbaik.

Apa itu BM25?

BM25 (Best Matching 25) adalah keluarga algoritma scoring relevansi dokumen yang dikembangkan oleh Stephen Robertson dan tim. Ide dasarnya: dokumen dianggap lebih relevan untuk sebuah kueri kalau ia mengandung kata-kata kunci dari kueri itu, namun dengan saturasi (kata yang muncul terlalu sering tidak terus menambah skor) dan penalti panjang dokumen.

Bandingkan dengan semantic search. BM25 bekerja di level token, sementara semantic search bekerja di level makna lewat embedding. Keduanya bukan musuh. Kombinasi keduanya disebut hybrid search.

Komponen Skor BM25

KomponenPeran
TF (Term Frequency)Berapa kali kata kueri muncul di dokumen
IDF (Inverse Doc Freq)Bobot lebih tinggi untuk kata yang langka di corpus
Doc Length NormPenalti dokumen yang terlalu panjang
k1, bParameter saturasi dan panjang yang bisa dituning

Implementasi praktis tersedia di Elasticsearch, OpenSearch, dan Postgres extension seperti pg_trgm atau pg_search. Dokumentasi resmi Elastic memberi penjelasan teknis yang baik di BM25 similarity guide.

Kenapa Masih Relevan di Era AI?

Praktik di lapangan menunjukkan BM25 unggul untuk: pencarian SKU, kode produk, nama brand, query yang tepat, dan domain dengan kosa kata khusus. Saat membangun hybrid search untuk e-commerce, saya melihat BM25 tetap menjadi backbone karena vector search sendirian sering kalah pada kueri eksak seperti SKU. Solusi yang bekerja: skor BM25 dan vector di-blend lalu di-rerank.

Untuk marketer dan tim produk Indonesia, ini relevan saat membangun search internal di website e-commerce, knowledge base, atau alat dokumentasi. Skala kecil sampai menengah, BM25 saja sudah cukup. Skala besar atau domain semantik kompleks, baru tambah vector.

Pertanyaan Umum

Tidak. BM25 tetap kompetitif untuk pencarian keyword eksak dan domain dengan kosa kata khusus. Banyak sistem produksi memakai hybrid BM25 + vector untuk ranking optimal.

Apa beda BM25 dengan TF-IDF?

BM25 adalah pengembangan dari TF-IDF. Bedanya: BM25 menambah saturasi term frequency dan normalisasi panjang dokumen, sehingga lebih stabil pada dokumen panjang.

Bagikan