Digital Transformation

Eval Harness (Kerangka Evaluasi Otomatis Sistem AI)

Eval harness adalah kerangka kerja terstandar untuk menjalankan dan melacak hasil evaluasi sistem AI secara otomatis di setiap perubahan model, prompt, atau pipeline.

Vito Atmo·9 Mei 2026·0 kali dibaca·2 min baca

TL;DR: Eval harness adalah pipeline yang menjalankan kumpulan tes evaluasi AI (akurasi, faithfulness, biaya, latency) setiap kali ada perubahan, lalu mencatat hasilnya untuk dibandingkan antar versi. Tanpa eval harness, brand Indonesia tidak punya cara objektif memutuskan apakah update prompt atau ganti model membuat kualitas chatbot membaik atau memburuk.

Apa itu Eval Harness?

Eval harness adalah versi unit test untuk sistem AI. Komponen utamanya: dataset evaluasi (kumpulan input + jawaban yang diharapkan), metode penilaian (rule-based, LLM as judge, atau review manusia), runner yang mengeksekusi tes, dan dashboard hasil yang melacak skor lintas waktu.

Eval harness berbeda dari agent evaluation sekali jalan. Eval harness fokus pada otomasi, repeatability, dan version control supaya tim bisa bandingkan perubahan dengan disiplin.

Komponen Wajib

Komponen	Fungsi
Eval set	Dataset tetap berisi input + expected output
Scorer	Logika penilaian (regex, exact match, judge LLM)
Runner	CLI atau pipeline CI yang menjalankan semua tes
Result store	Database yang menyimpan skor per versi
Threshold gate	Aturan pass/fail untuk blokir release

Kenapa Penting?

Banyak tim Indonesia masih melakukan QA chatbot AI dengan menanyakan beberapa contoh manual sebelum deploy. Cara itu rapuh karena tidak repeatable dan rentan bias konfirmasi. Eval harness memaksa proses jadi terstruktur: setiap perubahan dijalankan ke 100-500 kasus uji, hasilnya disimpan, dan release diblokir jika skor turun di bawah threshold. Disiplin ini yang membedakan brand yang ber-iterasi cepat dengan aman dari brand yang takut update karena tidak tahu konsekuensinya.

Pertanyaan Umum

Berapa besar eval set yang ideal untuk awal?

Mulai dari 50 kasus yang menutupi top intents dan edge cases yang pernah dilaporkan. Tambah 10-20 kasus tiap kali ada bug baru ditemukan di produksi.

Apakah harus pakai LLM-as-judge untuk scoring?

Tidak selalu. Untuk tugas dengan jawaban tegas (SKU, harga, status pesanan), pakai exact match. Untuk jawaban bebas, kombinasikan rubric scoring dengan judge LLM, dan validasi sample dengan reviewer manusia tiap minggu.

Istilah Terkait

Agent Evaluation (Evaluasi AI Agent)LLM-as-Judge Model Evaluation RAG Evaluation (Evaluasi Sistem RAG)

Semua Istilah Ada pertanyaan? →