Digital Transformation

Embedding Drift

Vito Atmo·28 April 2026·0 kali dibaca·2 min baca

TL;DR: Embedding Drift adalah fenomena ketika vector representation dari konten yang sudah diindeks menjadi tidak konsisten dengan data baru, perilaku pengguna baru, atau versi model embedding yang sudah diperbarui. Dampaknya, sistem RAG, rekomendasi produk, dan chatbot perlahan kehilangan akurasi tanpa terlihat dari metrik permukaan.

Apa itu Embedding Drift?

Embedding Drift terjadi karena tiga sebab utama. Pertama, model embedding yang dipakai berubah versi, misalnya dari text-embedding-3-small ke text-embedding-3-large. Kedua, distribusi data input berubah, misalnya muncul terminologi baru di industri yang belum dikenal model lama. Ketiga, pola query pengguna berubah seiring waktu, sehingga vector lama menjadi kurang representatif. Konsep ini mirip dengan model drift di machine learning klasik, tapi berfokus pada lapisan retrieval. Untuk konteks praktis, baca juga embedding sebagai dasar.

Jenis Embedding Drift

Jenis	Penyebab	Cara deteksi
Model drift	Update versi model embedding	Bandingkan cosine similarity sample lama vs baru
Data drift	Distribusi konten baru berubah	Monitor entitas dan term frequency
Query drift	Pola pengguna bergeser	Audit query log per kuartal
Domain drift	Bisnis masuk vertical baru	Re-evaluasi recall@k pada test set

Kenapa Penting?

Dalam beberapa proyek RAG yang saya audit, akurasi jawaban turun 15-25% dalam 6 bulan tanpa ada perubahan kode, murni karena Embedding Drift. Untuk marketer yang memakai chatbot AI atau search bar berbasis vector, ini berarti pengalaman pengguna bisa memburuk diam-diam. Praktik standar adalah menjadwalkan re-embedding minimal 2-4 kali per tahun, atau setiap kali katalog konten bertambah lebih dari 30%. Lihat synthetic monitoring untuk membangun alert otomatis.

Pertanyaan Umum

Apakah harus selalu re-embed seluruh katalog?

Tidak. Banyak tim memakai strategi incremental, di mana dokumen baru dan yang paling sering diakses di-embed ulang lebih dulu. Re-embed total hanya wajib saat ganti versi model embedding.

Berapa biaya re-embedding katalog 100 ribu dokumen?

Per April 2026, biaya berkisar 5-30 USD memakai model OpenAI atau Cohere, tergantung panjang dokumen. Yang lebih mahal biasanya storage dan reindex, bukan API embedding.

Istilah Terkait

Embedding RAG (Retrieval-Augmented Generation)Semantic Search (Pencarian Semantik)Synthetic Monitoring Vector Database (Basis Data Vektor)

Semua Istilah Ada pertanyaan? →