Digital Transformation

Cosine Similarity

Vito Atmo·5 Juni 2026·0 kali dibaca·2 min baca

TL;DR: Cosine similarity adalah metrik yang mengukur kemiripan dua vector embedding berdasarkan sudut di antara keduanya, dengan skala 0 sampai 1. Skor 0,90 atau lebih biasanya berarti dua konten saling kanibal di AI Search, sementara skor di bawah 0,40 menandakan topik yang benar-benar berbeda.

Apa itu Cosine Similarity?

Cosine similarity menghitung cosinus sudut antara dua vektor di ruang dimensi tinggi. Hasilnya selalu di rentang 0 (tidak mirip sama sekali) sampai 1 (identik secara semantik). Berbeda dengan Euclidean distance yang sensitif pada panjang vektor, cosine similarity hanya peduli pada arah, sehingga ideal untuk membandingkan teks dengan jumlah kata berbeda.

Cara Pakai untuk Konten

Skor	Interpretasi	Aksi
0,90 sampai 1,00	Hampir duplikat	Gabung atau redirect 301
0,70 sampai 0,89	Topik tumpang tindih	Perjelas internal link & anchor
0,40 sampai 0,69	Mendukung satu pilar	Hubungkan via topic cluster
Di bawah 0,40	Topik berbeda	Aman dipublish sebagai konten baru

Kenapa Penting?

Audit cosine similarity membantu marketer Indonesia menghindari kanibalisasi keyword dan menjaga skor hybrid search. Praktik standar di industri memakai embedding dari model OpenAI atau open-source seperti BGE, lalu menghitung pasangan via library NumPy. Referensi rumus lengkap ada di scikit-learn documentation.

Pertanyaan Umum

Apakah cosine similarity sama dengan dot product?

Hampir sama. Cosine similarity adalah dot product yang dinormalisasi oleh panjang masing-masing vektor, sehingga skala selalu 0 sampai 1.

Berapa ambang batas yang aman untuk konten unik?

Berdasarkan audit yang Vito Atmo jalankan di proyek klien, ambang aman untuk konten baru adalah di bawah 0,75 terhadap seluruh artikel published. Di atas itu, perlu konsolidasi.

Istilah Terkait

Embedding Hybrid Search Redirect 301 Semantic Search (Pencarian Semantik)Structured Data Topic Cluster Vector Embedding

Semua Istilah Ada pertanyaan? →