Digital Transformation

Agent Confidence Score (Skor Kepercayaan Agen AI)

Vito Atmo·10 Mei 2026·4 kali dibaca·2 min baca

TL;DR: Agent Confidence Score adalah angka antara 0 dan 1 yang menggambarkan seberapa yakin AI agent terhadap jawaban atau aksi yang sedang ia ambil. Brand memakainya sebagai threshold untuk menentukan kapan agen menjawab langsung, kapan minta klarifikasi, dan kapan eskalasi ke staf manusia.

Apa itu Agent Confidence Score?

Agent Confidence Score adalah sinyal internal yang dihitung dari kombinasi probabilitas token, similarity skor retrieval, dan output LLM-as-Judge untuk memutuskan apakah jawaban agent layak dikirim ke pengguna. Angka ini dipakai sebagai gating layer di AgentOps supaya agent tidak asal jawab saat konteks lemah. Dalam praktiknya, brand menentukan threshold tertentu, misal 0,8, untuk auto-respond dan di bawah itu ditahan untuk verifikasi manusia.

Komponen yang Membentuk Skor

Sumber Sinyal	Penjelasan
Token probability	Rata-rata probabilitas token output dari model.
Retrieval similarity	Cosine similarity antara query dan dokumen di Vector Database.
Tool execution status	Sukses atau gagal saat agent memanggil API atau database.
Self-evaluation	Output evaluator (LLM kedua) yang menilai jawaban pertama.
Historical accuracy	Akurasi historis pada query mirip dari Eval Harness.

Kenapa Penting?

Per April 2026, banyak brand Indonesia mulai memakai chatbot AI untuk customer support, tapi sebagian besar belum punya gating layer. Akibatnya AI menjawab dengan halusinasi atau salah eskalasi. Saat saya membangun chatbot untuk Atmo LMS, kami pasang threshold 0,75 untuk auto-respond. Skor di bawah itu dilempar ke admin manusia. Hasilnya akurasi naik karena pelanggan tidak menerima jawaban berisiko, dan tim support hanya menangani 20-30% pertanyaan yang benar-benar butuh manusia.

Pertanyaan Umum

Apakah angka tinggi selalu berarti jawaban benar?

Tidak. Confidence tinggi berarti model yakin, tapi bisa saja salah, terutama saat retrievalnya tidak relevan. Confidence harus dipasangkan dengan Hallucination Rate dan eval rutin untuk memvalidasi.

Berapa threshold ideal?

Tergantung domain. Untuk customer support komersial 0,75-0,85 lazim dipakai. Untuk domain berisiko tinggi seperti finansial atau medis, threshold 0,9 ke atas lebih aman.

Istilah Terkait

AgentOps (Operasi AI Agent di Produksi)Eval Harness (Kerangka Evaluasi Otomatis Sistem AI)Hallucination Rate (Tingkat Halusinasi AI)LLM-as-Judge Structured Data Vector Database (Basis Data Vektor)

Semua Istilah Ada pertanyaan? →