Case Study

Studi Kasus Ade Mulyana: LLM Eval Harness Naikkan Akurasi Generator Konten dari 62 ke 89 Persen dalam 21 Hari di Personal Brand Konsultan Hukum 2026

Vito Atmo·5 Juni 2026·0 kali dibaca·5 min baca

TL;DR: Ade Mulyana, konsultan hukum yang aktif memproduksi konten edukasi di personal brand-nya, semula memakai prompt LLM langsung ke produksi tanpa eval. Akurasi konten generator hanya 62 persen, dengan 14 persen halusinasi terdeteksi pembaca. Setelah Vito Atmo memasang LLM Eval Harness sederhana berbasis Promptfoo, akurasi naik ke 89 persen dalam 21 hari dan halusinasi turun ke 3 persen.

Pada awal Mei 2026, Ade Mulyana, konsultan hukum dengan personal brand di vertical advokasi UMKM, datang ke saya dengan masalah spesifik. Dia memakai generator konten berbasis Claude untuk mendraft penjelasan istilah hukum di mini blog-nya. Output dipublish dengan editing minimal karena kebutuhan velocity konten. Setelah 6 minggu produksi, 4 pembaca menemukan kesalahan faktual yang cukup signifikan: nomor pasal yang salah, tahun revisi UU yang keliru, dan satu klaim yurisdiksi yang tidak akurat.

Risikonya jelas. Konten hukum yang keliru bisa merusak otoritas personal brand seorang konsultan secara permanen. Solusinya bukan berhenti pakai LLM, tapi memasang jaring pengaman objektif sebelum konten naik ke publikasi.

Masalah: Prompt Drift Tanpa Detektor

Saat pertama mengaudit pipeline Ade, saya menemukan tiga akar masalah. Pertama, tidak ada baseline akurasi yang terukur. Kedua, prompt produksi diubah-ubah tanpa regression test. Ketiga, tidak ada dataset evaluasi terstandar untuk membandingkan output antar versi prompt.

Akibatnya, perubahan kecil di system prompt bisa menurunkan kualitas tanpa terdeteksi. Salah satu update prompt yang seharusnya membuat output "lebih ringkas" justru menaikkan tingkat halusinasi pasal karena model kehilangan instruksi grounding ke sumber.

Kerangka Implementasi: 5 Langkah dalam 21 Hari

Hari 1-3: Bangun Dataset Eval

Saya bantu Ade menyiapkan 30 prompt uji yang merepresentasikan jenis konten yang dia produksi. Setiap prompt punya jawaban referensi yang divalidasi manual oleh Ade sebagai expert hukum. Dataset disimpan dalam YAML untuk Promptfoo.

Hari 4-7: Setup Runner dan Scorer

Promptfoo dijalankan lokal di laptop Ade. Scorer kombinasi: exact match untuk nomor pasal dan tahun, LLM-as-judge memakai Claude Sonnet untuk menilai akurasi narasi. Baseline akurasi awal: 62 persen, halusinasi terdeteksi 14 persen.

Hari 8-14: Iterasi Prompt dengan Regression Check

Setiap perubahan prompt sistem dijalankan ulang seluruh 30 eval. Perubahan yang menurunkan skor di-rollback. Dalam minggu kedua, kami menemukan 3 versi prompt yang naikkan akurasi signifikan: menambah instruksi "kutip pasal beserta UU dan tahun revisi", instruksi "jika ragu, tulis 'perlu verifikasi'", dan grounding ke daftar UU populer.

Hari 15-18: Tambah Eval untuk Edge Case

Setelah baseline stabil, kami tambah 15 prompt untuk edge case: pertanyaan multi-yurisdiksi, regulasi yang baru direvisi, dan istilah dengan beberapa interpretasi. Beberapa prompt awal gagal, dipakai sebagai feedback loop untuk perbaikan prompt.

Hari 19-21: Otomasi dan Dashboard

Eval dijalankan otomatis tiap pagi sebelum sesi produksi konten. Dashboard sederhana di Notion menampilkan tren akurasi mingguan. Ade hanya melanjutkan produksi jika skor harian di atas 85 persen.

Hasil Terukur dalam 21 Hari

Metrik	Sebelum	Sesudah	Delta
Akurasi factual	62%	89%	+27 pp
Halusinasi terdeteksi	14%	3%	-11 pp
Waktu editorial manual	18 menit/konten	6 menit/konten	-67%
Velocity publish	4 konten/minggu	7 konten/minggu	+75%

Selain metrik kualitas, ada dampak operasional yang tidak diduga. Ade jadi lebih percaya diri mengiterasi prompt karena setiap perubahan terukur. Velocity naik 75 persen karena waktu editing manual berkurang drastis. Pendekatan ini sejalan dengan praktik standar di industri seperti yang dijelaskan dokumentasi resmi Promptfoo tentang regression testing untuk LLM.

Studi Banding: Pola Sama di Project Lain

Pola yang sama berhasil di project lain. Saat membantu konten generator Aris Setiawan untuk konsultasi SDM, eval harness mempercepat iterasi prompt produksi 3 kali lipat. Pendekatan ini juga relevan untuk konten marketer di sektor regulated seperti finansial dan kesehatan, di mana cost of error sangat tinggi.

Pertanyaan Umum

Apakah eval harness butuh tim engineer?

Tidak. Promptfoo bisa dijalankan lokal dengan konfigurasi YAML sederhana. Marketer atau konsultan dengan basic technical literacy bisa setup dalam 1-2 hari.

Berapa biaya bulanan eval harness?

Untuk skala 30-50 eval/hari pakai Claude Haiku atau GPT-4o-mini sebagai judge, biaya umumnya 5-15 USD per bulan. Sangat murah dibanding cost reputasi dari halusinasi.

Apakah perlu eval setiap perubahan prompt?

Ya, untuk prompt produksi. Untuk eksperimen prompt baru, eval cukup dijalankan saat siap dipromosikan ke produksi.

Berapa jumlah eval prompt minimum?

Mulai dari 15-20 prompt yang merepresentasikan use case utama. Tambah 5-10 prompt edge case setiap kali ada kegagalan terdeteksi di production.

Penutup: Eval Harness adalah Asuransi Kualitas

Untuk konsultan, marketer, atau personal brand yang memakai LLM di pipeline produksi konten, eval harness bukan luxury, tapi kebutuhan dasar. Tanpa baseline objektif, semua perubahan prompt adalah gambling. Ade Mulyana sekarang tidur lebih nyenyak karena tahu setiap konten yang naik sudah lulus 45 eval otomatis. Mulailah dengan dataset 15 prompt minggu depan, dan ukur baseline Anda.

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang