Studi Kasus Ade Mulyana: LLM Eval Harness Naikkan Akurasi Generator Konten dari 62 ke 89 Persen dalam 21 Hari di Personal Brand Konsultan Hukum 2026
TL;DR: Ade Mulyana, konsultan hukum yang aktif memproduksi konten edukasi di personal brand-nya, semula memakai prompt LLM langsung ke produksi tanpa eval. Akurasi konten generator hanya 62 persen, dengan 14 persen halusinasi terdeteksi pembaca. Setelah Vito Atmo memasang LLM Eval Harness sederhana berbasis Promptfoo, akurasi naik ke 89 persen dalam 21 hari dan halusinasi turun ke 3 persen.
Pada awal Mei 2026, Ade Mulyana, konsultan hukum dengan personal brand di vertical advokasi UMKM, datang ke saya dengan masalah spesifik. Dia memakai generator konten berbasis Claude untuk mendraft penjelasan istilah hukum di mini blog-nya. Output dipublish dengan editing minimal karena kebutuhan velocity konten. Setelah 6 minggu produksi, 4 pembaca menemukan kesalahan faktual yang cukup signifikan: nomor pasal yang salah, tahun revisi UU yang keliru, dan satu klaim yurisdiksi yang tidak akurat.
Risikonya jelas. Konten hukum yang keliru bisa merusak otoritas personal brand seorang konsultan secara permanen. Solusinya bukan berhenti pakai LLM, tapi memasang jaring pengaman objektif sebelum konten naik ke publikasi.
Masalah: Prompt Drift Tanpa Detektor
Saat pertama mengaudit pipeline Ade, saya menemukan tiga akar masalah. Pertama, tidak ada baseline akurasi yang terukur. Kedua, prompt produksi diubah-ubah tanpa regression test. Ketiga, tidak ada dataset evaluasi terstandar untuk membandingkan output antar versi prompt.
Akibatnya, perubahan kecil di system prompt bisa menurunkan kualitas tanpa terdeteksi. Salah satu update prompt yang seharusnya membuat output "lebih ringkas" justru menaikkan tingkat halusinasi pasal karena model kehilangan instruksi grounding ke sumber.
Kerangka Implementasi: 5 Langkah dalam 21 Hari
Hari 1-3: Bangun Dataset Eval
Saya bantu Ade menyiapkan 30 prompt uji yang merepresentasikan jenis konten yang dia produksi. Setiap prompt punya jawaban referensi yang divalidasi manual oleh Ade sebagai expert hukum. Dataset disimpan dalam YAML untuk Promptfoo.
Hari 4-7: Setup Runner dan Scorer
Promptfoo dijalankan lokal di laptop Ade. Scorer kombinasi: exact match untuk nomor pasal dan tahun, LLM-as-judge memakai Claude Sonnet untuk menilai akurasi narasi. Baseline akurasi awal: 62 persen, halusinasi terdeteksi 14 persen.
Hari 8-14: Iterasi Prompt dengan Regression Check
Setiap perubahan prompt sistem dijalankan ulang seluruh 30 eval. Perubahan yang menurunkan skor di-rollback. Dalam minggu kedua, kami menemukan 3 versi prompt yang naikkan akurasi signifikan: menambah instruksi "kutip pasal beserta UU dan tahun revisi", instruksi "jika ragu, tulis 'perlu verifikasi'", dan grounding ke daftar UU populer.
Hari 15-18: Tambah Eval untuk Edge Case
Setelah baseline stabil, kami tambah 15 prompt untuk edge case: pertanyaan multi-yurisdiksi, regulasi yang baru direvisi, dan istilah dengan beberapa interpretasi. Beberapa prompt awal gagal, dipakai sebagai feedback loop untuk perbaikan prompt.
Hari 19-21: Otomasi dan Dashboard
Eval dijalankan otomatis tiap pagi sebelum sesi produksi konten. Dashboard sederhana di Notion menampilkan tren akurasi mingguan. Ade hanya melanjutkan produksi jika skor harian di atas 85 persen.
Hasil Terukur dalam 21 Hari
| Metrik | Sebelum | Sesudah | Delta |
|---|---|---|---|
| Akurasi factual | 62% | 89% | +27 pp |
| Halusinasi terdeteksi | 14% | 3% | -11 pp |
| Waktu editorial manual | 18 menit/konten | 6 menit/konten | -67% |
| Velocity publish | 4 konten/minggu | 7 konten/minggu | +75% |
Selain metrik kualitas, ada dampak operasional yang tidak diduga. Ade jadi lebih percaya diri mengiterasi prompt karena setiap perubahan terukur. Velocity naik 75 persen karena waktu editing manual berkurang drastis. Pendekatan ini sejalan dengan praktik standar di industri seperti yang dijelaskan dokumentasi resmi Promptfoo tentang regression testing untuk LLM.
Studi Banding: Pola Sama di Project Lain
Pola yang sama berhasil di project lain. Saat membantu konten generator Aris Setiawan untuk konsultasi SDM, eval harness mempercepat iterasi prompt produksi 3 kali lipat. Pendekatan ini juga relevan untuk konten marketer di sektor regulated seperti finansial dan kesehatan, di mana cost of error sangat tinggi.
Pertanyaan Umum
Apakah eval harness butuh tim engineer?
Tidak. Promptfoo bisa dijalankan lokal dengan konfigurasi YAML sederhana. Marketer atau konsultan dengan basic technical literacy bisa setup dalam 1-2 hari.
Berapa biaya bulanan eval harness?
Untuk skala 30-50 eval/hari pakai Claude Haiku atau GPT-4o-mini sebagai judge, biaya umumnya 5-15 USD per bulan. Sangat murah dibanding cost reputasi dari halusinasi.
Apakah perlu eval setiap perubahan prompt?
Ya, untuk prompt produksi. Untuk eksperimen prompt baru, eval cukup dijalankan saat siap dipromosikan ke produksi.
Berapa jumlah eval prompt minimum?
Mulai dari 15-20 prompt yang merepresentasikan use case utama. Tambah 5-10 prompt edge case setiap kali ada kegagalan terdeteksi di production.
Penutup: Eval Harness adalah Asuransi Kualitas
Untuk konsultan, marketer, atau personal brand yang memakai LLM di pipeline produksi konten, eval harness bukan luxury, tapi kebutuhan dasar. Tanpa baseline objektif, semua perubahan prompt adalah gambling. Ade Mulyana sekarang tidur lebih nyenyak karena tahu setiap konten yang naik sudah lulus 45 eval otomatis. Mulailah dengan dataset 15 prompt minggu depan, dan ukur baseline Anda.
Artikel Terkait
Case Study
Studi Kasus: Glosarium sebagai Mesin Trafik Organik yang Diam
Banyak yang menganggap halaman istilah sekadar pelengkap. Padahal, dengan struktur yang tepat, glosarium bisa jadi sumber trafik organik paling stabil di sebuah website.
Case Study
Studi Kasus: Bagaimana Glosarium Jadi Mesin Traffic Organik
Glosarium sering dianggap pelengkap. Padahal, jika dirancang benar, ia bisa jadi salah satu sumber traffic organik paling stabil sebuah website.
Case Study
MVP untuk UMKM: Validasi Produk Sebelum Bangun Besar
MVP membantu UMKM menguji kebutuhan pasar sebelum modal besar keluar. Langkah praktis dan studi kasus nyata membangun versi terkecil yang cukup.
Butuh website yang benar-benar bekerja?
Hubungi Vito untuk konsultasi gratis 15 menit.
WhatsApp SekarangDaftar Isi
- Masalah: Prompt Drift Tanpa Detektor
- Kerangka Implementasi: 5 Langkah dalam 21 Hari
- Hari 1-3: Bangun Dataset Eval
- Hari 4-7: Setup Runner dan Scorer
- Hari 8-14: Iterasi Prompt dengan Regression Check
- Hari 15-18: Tambah Eval untuk Edge Case
- Hari 19-21: Otomasi dan Dashboard
- Hasil Terukur dalam 21 Hari
- Studi Banding: Pola Sama di Project Lain
- Pertanyaan Umum
- Penutup: Eval Harness adalah Asuransi Kualitas