Digital Transformation
Cosine Similarity
TL;DR: Cosine similarity adalah metrik yang mengukur kemiripan dua vector embedding berdasarkan sudut di antara keduanya, dengan skala 0 sampai 1. Skor 0,90 atau lebih biasanya berarti dua konten saling kanibal di AI Search, sementara skor di bawah 0,40 menandakan topik yang benar-benar berbeda.
Apa itu Cosine Similarity?
Cosine similarity menghitung cosinus sudut antara dua vektor di ruang dimensi tinggi. Hasilnya selalu di rentang 0 (tidak mirip sama sekali) sampai 1 (identik secara semantik). Berbeda dengan Euclidean distance yang sensitif pada panjang vektor, cosine similarity hanya peduli pada arah, sehingga ideal untuk membandingkan teks dengan jumlah kata berbeda.
Cara Pakai untuk Konten
| Skor | Interpretasi | Aksi |
|---|---|---|
| 0,90 sampai 1,00 | Hampir duplikat | Gabung atau redirect 301 |
| 0,70 sampai 0,89 | Topik tumpang tindih | Perjelas internal link & anchor |
| 0,40 sampai 0,69 | Mendukung satu pilar | Hubungkan via topic cluster |
| Di bawah 0,40 | Topik berbeda | Aman dipublish sebagai konten baru |
Kenapa Penting?
Audit cosine similarity membantu marketer Indonesia menghindari kanibalisasi keyword dan menjaga skor hybrid search. Praktik standar di industri memakai embedding dari model OpenAI atau open-source seperti BGE, lalu menghitung pasangan via library NumPy. Referensi rumus lengkap ada di scikit-learn documentation.
Pertanyaan Umum
Apakah cosine similarity sama dengan dot product?
Hampir sama. Cosine similarity adalah dot product yang dinormalisasi oleh panjang masing-masing vektor, sehingga skala selalu 0 sampai 1.
Berapa ambang batas yang aman untuk konten unik?
Berdasarkan audit yang Vito Atmo jalankan di proyek klien, ambang aman untuk konten baru adalah di bawah 0,75 terhadap seluruh artikel published. Di atas itu, perlu konsolidasi.
Istilah Terkait