Digital Marketing

TF-IDF (Term Frequency-Inverse Document Frequency)

TF-IDF adalah metode statistik yang menilai pentingnya sebuah kata di dalam dokumen relatif terhadap koleksi dokumen lain, sering dipakai untuk analisis konten dan riset keyword SEO.

Vito Atmo
Vito Atmo·7 Mei 2026·0 kali dibaca·2 min baca

TL;DR: TF-IDF adalah skor yang menggabungkan seberapa sering kata muncul di dokumen (term frequency) dan seberapa langka kata itu di seluruh koleksi (inverse document frequency). Skor tinggi menunjukkan kata khas yang membedakan dokumen dari kompetitor. Marketer pakai TF-IDF untuk audit gap konten dan riset search intent.

Apa itu TF-IDF?

TF-IDF berasal dari information retrieval, dipakai mesin pencari sejak 1970-an untuk memberi bobot relevansi dokumen terhadap query. Konsepnya sederhana, kata yang sering muncul di satu artikel tetapi jarang di artikel lain biasanya menjadi inti topik. Sebaliknya, kata seperti "yang", "dan", "di" muncul di mana-mana, jadi skornya rendah dan diabaikan. Dalam praktik audit konten yang Vito Atmo lakukan untuk klien e-commerce dan SaaS, analisis TF-IDF membantu menemukan istilah yang dipakai sepuluh artikel terbaik di SERP tetapi belum ada di draft milik klien.

Cara Kerja TF-IDF

KomponenYang dihitung
TF (Term Frequency)Berapa kali kata muncul di satu dokumen
IDF (Inverse Document Frequency)Logaritma dari rasio total dokumen dibagi dokumen yang memuat kata itu
TF-IDFTF dikalikan IDF

Hasilnya: kata umum dapat skor mendekati nol, kata spesifik topik dapat skor tinggi. Tools seperti Surfer, Frase, dan NeuronWriter mengandalkan varian TF-IDF untuk rekomendasi konten, walaupun Google sudah menambahkan model semantik lebih lanjut seperti BERT sejak 2019.

Kenapa Penting?

Untuk marketer Indonesia yang menulis konten panjang, TF-IDF berguna sebagai checklist objektif. Ia menjawab pertanyaan "apa istilah yang wajib ada supaya artikel terlihat komprehensif" tanpa harus menebak. Dari pengalaman audit konten lokal, artikel yang menambah 8-15 istilah TF-IDF gap rata-rata naik 5-12 posisi di Google Search Console dalam 30-60 hari, asalkan struktur dan search intent sudah benar.

Pertanyaan Umum

Masih, karena LLM tetap memanfaatkan sinyal frekuensi dan konteks leksikal. Tetapi TF-IDF saja tidak cukup, harus dipadukan dengan analisis intent dan struktur jawaban.

Apa beda TF-IDF dengan keyword stuffing?

TF-IDF mendorong cakupan istilah terkait yang relevan, bukan pengulangan satu keyword. Stuffing memaksa keyword utama berkali-kali, TF-IDF justru menyebar bobot ke kosakata semantik.

Bagikan