Digital Transformation
Eval Harness (Kerangka Evaluasi Otomatis Sistem AI)
Eval harness adalah kerangka kerja terstandar untuk menjalankan dan melacak hasil evaluasi sistem AI secara otomatis di setiap perubahan model, prompt, atau pipeline.
TL;DR: Eval harness adalah pipeline yang menjalankan kumpulan tes evaluasi AI (akurasi, faithfulness, biaya, latency) setiap kali ada perubahan, lalu mencatat hasilnya untuk dibandingkan antar versi. Tanpa eval harness, brand Indonesia tidak punya cara objektif memutuskan apakah update prompt atau ganti model membuat kualitas chatbot membaik atau memburuk.
Apa itu Eval Harness?
Eval harness adalah versi unit test untuk sistem AI. Komponen utamanya: dataset evaluasi (kumpulan input + jawaban yang diharapkan), metode penilaian (rule-based, LLM as judge, atau review manusia), runner yang mengeksekusi tes, dan dashboard hasil yang melacak skor lintas waktu.
Eval harness berbeda dari agent evaluation sekali jalan. Eval harness fokus pada otomasi, repeatability, dan version control supaya tim bisa bandingkan perubahan dengan disiplin.
Komponen Wajib
| Komponen | Fungsi |
|---|---|
| Eval set | Dataset tetap berisi input + expected output |
| Scorer | Logika penilaian (regex, exact match, judge LLM) |
| Runner | CLI atau pipeline CI yang menjalankan semua tes |
| Result store | Database yang menyimpan skor per versi |
| Threshold gate | Aturan pass/fail untuk blokir release |
Kenapa Penting?
Banyak tim Indonesia masih melakukan QA chatbot AI dengan menanyakan beberapa contoh manual sebelum deploy. Cara itu rapuh karena tidak repeatable dan rentan bias konfirmasi. Eval harness memaksa proses jadi terstruktur: setiap perubahan dijalankan ke 100-500 kasus uji, hasilnya disimpan, dan release diblokir jika skor turun di bawah threshold. Disiplin ini yang membedakan brand yang ber-iterasi cepat dengan aman dari brand yang takut update karena tidak tahu konsekuensinya.
Pertanyaan Umum
Berapa besar eval set yang ideal untuk awal?
Mulai dari 50 kasus yang menutupi top intents dan edge cases yang pernah dilaporkan. Tambah 10-20 kasus tiap kali ada bug baru ditemukan di produksi.
Apakah harus pakai LLM-as-judge untuk scoring?
Tidak selalu. Untuk tugas dengan jawaban tegas (SKU, harga, status pesanan), pakai exact match. Untuk jawaban bebas, kombinasikan rubric scoring dengan judge LLM, dan validasi sample dengan reviewer manusia tiap minggu.
Istilah Terkait