Digital Transformation

Embedding Drift

Embedding Drift adalah penurunan akurasi sistem AI yang terjadi ketika representasi vector dari konten lama tidak lagi konsisten dengan data baru atau model embedding yang sudah diperbarui.

Vito Atmo
Vito Atmo·28 April 2026·0 kali dibaca·2 min baca

TL;DR: Embedding Drift adalah fenomena ketika vector representation dari konten yang sudah diindeks menjadi tidak konsisten dengan data baru, perilaku pengguna baru, atau versi model embedding yang sudah diperbarui. Dampaknya, sistem RAG, rekomendasi produk, dan chatbot perlahan kehilangan akurasi tanpa terlihat dari metrik permukaan.

Apa itu Embedding Drift?

Embedding Drift terjadi karena tiga sebab utama. Pertama, model embedding yang dipakai berubah versi, misalnya dari text-embedding-3-small ke text-embedding-3-large. Kedua, distribusi data input berubah, misalnya muncul terminologi baru di industri yang belum dikenal model lama. Ketiga, pola query pengguna berubah seiring waktu, sehingga vector lama menjadi kurang representatif. Konsep ini mirip dengan model drift di machine learning klasik, tapi berfokus pada lapisan retrieval. Untuk konteks praktis, baca juga embedding sebagai dasar.

Jenis Embedding Drift

JenisPenyebabCara deteksi
Model driftUpdate versi model embeddingBandingkan cosine similarity sample lama vs baru
Data driftDistribusi konten baru berubahMonitor entitas dan term frequency
Query driftPola pengguna bergeserAudit query log per kuartal
Domain driftBisnis masuk vertical baruRe-evaluasi recall@k pada test set

Kenapa Penting?

Dalam beberapa proyek RAG yang saya audit, akurasi jawaban turun 15-25% dalam 6 bulan tanpa ada perubahan kode, murni karena Embedding Drift. Untuk marketer yang memakai chatbot AI atau search bar berbasis vector, ini berarti pengalaman pengguna bisa memburuk diam-diam. Praktik standar adalah menjadwalkan re-embedding minimal 2-4 kali per tahun, atau setiap kali katalog konten bertambah lebih dari 30%. Lihat synthetic monitoring untuk membangun alert otomatis.

Pertanyaan Umum

Apakah harus selalu re-embed seluruh katalog?

Tidak. Banyak tim memakai strategi incremental, di mana dokumen baru dan yang paling sering diakses di-embed ulang lebih dulu. Re-embed total hanya wajib saat ganti versi model embedding.

Berapa biaya re-embedding katalog 100 ribu dokumen?

Per April 2026, biaya berkisar 5-30 USD memakai model OpenAI atau Cohere, tergantung panjang dokumen. Yang lebih mahal biasanya storage dan reindex, bukan API embedding.

Bagikan