Digital Transformation

Agent Confidence Score (Skor Kepercayaan Agen AI)

Agent Confidence Score adalah angka 0-1 yang menunjukkan tingkat keyakinan AI agent terhadap jawaban atau aksi yang diambil, dipakai untuk memutuskan kapan eskalasi ke manusia.

Vito Atmo
Vito Atmo·10 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Agent Confidence Score adalah angka antara 0 dan 1 yang menggambarkan seberapa yakin AI agent terhadap jawaban atau aksi yang sedang ia ambil. Brand memakainya sebagai threshold untuk menentukan kapan agen menjawab langsung, kapan minta klarifikasi, dan kapan eskalasi ke staf manusia.

Apa itu Agent Confidence Score?

Agent Confidence Score adalah sinyal internal yang dihitung dari kombinasi probabilitas token, similarity skor retrieval, dan output LLM-as-Judge untuk memutuskan apakah jawaban agent layak dikirim ke pengguna. Angka ini dipakai sebagai gating layer di AgentOps supaya agent tidak asal jawab saat konteks lemah. Dalam praktiknya, brand menentukan threshold tertentu, misal 0,8, untuk auto-respond dan di bawah itu ditahan untuk verifikasi manusia.

Komponen yang Membentuk Skor

Sumber SinyalPenjelasan
Token probabilityRata-rata probabilitas token output dari model.
Retrieval similarityCosine similarity antara query dan dokumen di Vector Database.
Tool execution statusSukses atau gagal saat agent memanggil API atau database.
Self-evaluationOutput evaluator (LLM kedua) yang menilai jawaban pertama.
Historical accuracyAkurasi historis pada query mirip dari Eval Harness.

Kenapa Penting?

Per April 2026, banyak brand Indonesia mulai memakai chatbot AI untuk customer support, tapi sebagian besar belum punya gating layer. Akibatnya AI menjawab dengan halusinasi atau salah eskalasi. Saat saya membangun chatbot untuk Atmo LMS, kami pasang threshold 0,75 untuk auto-respond. Skor di bawah itu dilempar ke admin manusia. Hasilnya akurasi naik karena pelanggan tidak menerima jawaban berisiko, dan tim support hanya menangani 20-30% pertanyaan yang benar-benar butuh manusia.

Pertanyaan Umum

Apakah angka tinggi selalu berarti jawaban benar?

Tidak. Confidence tinggi berarti model yakin, tapi bisa saja salah, terutama saat retrievalnya tidak relevan. Confidence harus dipasangkan dengan Hallucination Rate dan eval rutin untuk memvalidasi.

Berapa threshold ideal?

Tergantung domain. Untuk customer support komersial 0,75-0,85 lazim dipakai. Untuk domain berisiko tinggi seperti finansial atau medis, threshold 0,9 ke atas lebih aman.

Bagikan