Digital Transformation
LLM Context Recall
TL;DR: LLM Context Recall mengukur seberapa akurat model bahasa memunculkan kembali fakta yang sudah disebut sebelumnya dalam konteks panjang. Untuk konten yang ingin dipakai ulang oleh AI Search, recall tinggi berarti jawaban lebih konsisten lintas pertanyaan turunan.
Apa itu LLM Context Recall?
LLM Context Recall adalah ukuran kemampuan model bahasa, seperti yang dipakai di Tool Calling atau LLM Eval Harness, untuk mengambil kembali fakta tertentu dari potongan teks yang sudah dibaca. Recall tinggi berarti ketika pengguna bertanya hal turunan, model bisa menjawab dengan fakta yang konsisten alih-alih mengarang.
Berbeda dengan retrieval yang berfokus pada pengambilan dokumen, recall berfokus pada kemampuan mengingat di dalam jendela konteks aktif.
Cara Kerja
| Aspek | Penjelasan |
|---|---|
| Granularity | Fakta atomik, bukan paragraf |
| Faktor naik | Repetisi kunci, anchor entitas, struktur konsisten |
| Faktor turun | Konteks bertele-tele, anchor lemah, paraphrase ekstrem |
| Cara ukur | Eval harness dengan pertanyaan turunan terkontrol |
Skor recall biasanya dilaporkan sebagai proporsi jawaban benar dari sampel pertanyaan, misal 0,72 berarti 72 persen jawaban tepat.
Kenapa Penting?
Untuk marketer Indonesia yang menargetkan AI Search, konten dengan recall tinggi lebih sering muncul sebagai jawaban karena model bisa menarik kembali fakta saat menjawab pertanyaan beragam. Konten yang banyak dipakai ulang AI cenderung membangun Agent Citation Trust Loop dan Organic Share of Voice yang stabil.
Praktik yang membantu: ulang nama entitas inti tiap 200-300 kata, gunakan angka konkret, dan letakkan klaim utama di paragraf pembuka. Panduan dasar mengenai konteks panjang dapat dilihat di dokumentasi Anthropic.
Pertanyaan Umum
Apakah Context Recall sama dengan Retrieval?
Tidak. Retrieval mengambil dokumen dari indeks eksternal, sementara recall bekerja di dalam jendela konteks yang sudah aktif.
Berapa skor recall yang ideal?
Praktik di proyek konten saya menunjukkan skor di atas 0,7 cukup untuk membuat konten konsisten dipakai ulang AI lintas pertanyaan turunan.
Istilah Terkait