Digital Transformation
Embedding Drift
Embedding Drift adalah penurunan akurasi sistem AI yang terjadi ketika representasi vector dari konten lama tidak lagi konsisten dengan data baru atau model embedding yang sudah diperbarui.
TL;DR: Embedding Drift adalah fenomena ketika vector representation dari konten yang sudah diindeks menjadi tidak konsisten dengan data baru, perilaku pengguna baru, atau versi model embedding yang sudah diperbarui. Dampaknya, sistem RAG, rekomendasi produk, dan chatbot perlahan kehilangan akurasi tanpa terlihat dari metrik permukaan.
Apa itu Embedding Drift?
Embedding Drift terjadi karena tiga sebab utama. Pertama, model embedding yang dipakai berubah versi, misalnya dari text-embedding-3-small ke text-embedding-3-large. Kedua, distribusi data input berubah, misalnya muncul terminologi baru di industri yang belum dikenal model lama. Ketiga, pola query pengguna berubah seiring waktu, sehingga vector lama menjadi kurang representatif. Konsep ini mirip dengan model drift di machine learning klasik, tapi berfokus pada lapisan retrieval. Untuk konteks praktis, baca juga embedding sebagai dasar.
Jenis Embedding Drift
| Jenis | Penyebab | Cara deteksi |
|---|---|---|
| Model drift | Update versi model embedding | Bandingkan cosine similarity sample lama vs baru |
| Data drift | Distribusi konten baru berubah | Monitor entitas dan term frequency |
| Query drift | Pola pengguna bergeser | Audit query log per kuartal |
| Domain drift | Bisnis masuk vertical baru | Re-evaluasi recall@k pada test set |
Kenapa Penting?
Dalam beberapa proyek RAG yang saya audit, akurasi jawaban turun 15-25% dalam 6 bulan tanpa ada perubahan kode, murni karena Embedding Drift. Untuk marketer yang memakai chatbot AI atau search bar berbasis vector, ini berarti pengalaman pengguna bisa memburuk diam-diam. Praktik standar adalah menjadwalkan re-embedding minimal 2-4 kali per tahun, atau setiap kali katalog konten bertambah lebih dari 30%. Lihat synthetic monitoring untuk membangun alert otomatis.
Pertanyaan Umum
Apakah harus selalu re-embed seluruh katalog?
Tidak. Banyak tim memakai strategi incremental, di mana dokumen baru dan yang paling sering diakses di-embed ulang lebih dulu. Re-embed total hanya wajib saat ganti versi model embedding.
Berapa biaya re-embedding katalog 100 ribu dokumen?
Per April 2026, biaya berkisar 5-30 USD memakai model OpenAI atau Cohere, tergantung panjang dokumen. Yang lebih mahal biasanya storage dan reindex, bukan API embedding.
Istilah Terkait