Digital Transformation
LLM-as-Judge
LLM-as-Judge adalah teknik evaluasi output AI dengan memakai model bahasa lain sebagai penilai otomatis, menggantikan anotator manusia untuk skala yang lebih besar.
TL;DR: LLM-as-Judge adalah pola evaluasi di mana sebuah model bahasa dipakai untuk menilai kualitas output dari model bahasa lain. Pendekatan ini memungkinkan tim produk menguji ribuan respons AI dalam hitungan menit, jauh lebih cepat dibanding mengandalkan anotator manusia, dengan korelasi yang umumnya 0,7-0,9 terhadap penilaian manusia jika rubrik dirancang dengan baik.
Apa itu LLM-as-Judge?
LLM-as-Judge adalah teknik di mana satu model bahasa diberi rubrik penilaian, lalu diminta menilai output model lain berdasarkan kriteria seperti akurasi, kelengkapan, atau kesesuaian gaya. Metode ini sering dipakai dalam pipeline evaluasi AI agent dan evaluasi sistem RAG ketika jumlah sampel terlalu besar untuk diperiksa manual.
Analogi sederhananya seperti panel juri lomba pidato. Manusia bisa menilai 10-20 peserta dalam sehari, tapi LLM bisa menilai 10.000 peserta sebelum kopi pertama habis, dengan catatan rubriknya jelas dan konsisten.
Cara Kerja
| Komponen | Peran |
|---|---|
| Rubrik | Definisi kriteria penilaian dalam prompt sistem |
| Model penilai | LLM yang membaca output target dan memberi skor |
| Skala skor | Biasanya 1-5 atau 1-10, atau pilihan A/B preferensi |
| Konteks pembanding | Kadang termasuk reference answer atau ground truth |
Output penilai bisa berupa skor numerik, label kategori, atau pasangan menang/kalah saat membandingkan dua respons.
Kenapa Penting?
Tim produk Indonesia yang membangun fitur AI butuh cara mengukur kualitas saat iterasi prompt atau ganti model. Tanpa evaluasi otomatis, regresi kualitas baru ketahuan dari komplain pengguna. LLM-as-Judge memungkinkan iterasi harian dengan biaya yang masih masuk akal, terutama jika dipasangkan dengan caching output AI untuk menekan biaya panggilan ulang.
Pertanyaan Umum
Apakah LLM-as-Judge bisa menggantikan anotator manusia sepenuhnya?
Tidak sepenuhnya. Untuk keputusan berisiko tinggi seperti medis atau hukum, manusia tetap diperlukan. LLM-as-Judge cocok untuk skrining cepat dan tracking regresi.
Model apa yang sebaiknya jadi penilai?
Model frontier yang lebih kuat dari model target. Memakai model yang sama untuk menilai dirinya sendiri cenderung memunculkan bias self-preference.
Bagaimana mengurangi bias penilai?
Acak urutan kandidat, pakai rubrik tertulis, dan kalibrasi periodik dengan sampel anotasi manusia.
Istilah Terkait