Case Study

Studi Kasus Aris Setiawan: Pasang Agent Tool Replay Window 180 Detik di Asisten Konsultasi Hukum, Pangkas Biaya Inferensi Rp 5,4 Juta per Bulan dan Stabilkan Determinisme Sesi 0,92 dalam 30 Hari di 2026

Vito Atmo
Vito Atmo·30 Mei 2026·0 kali dibaca·3 min baca
Studi Kasus Aris Setiawan: Pasang Agent Tool Replay Window 180 Detik di Asisten Konsultasi Hukum, Pangkas Biaya Inferensi Rp 5,4 Juta per Bulan dan Stabilkan Determinisme Sesi 0,92 dalam 30 Hari di 2026

TL;DR: Implementasi Agent Tool Replay Window 180 detik di asisten konsultasi hukum personal branding Aris Setiawan menurunkan biaya inferensi sekitar Rp 5,4 juta per bulan dan menaikkan determinisme sesi dari 0,67 ke 0,92 dalam 30 hari. Konfigurasi memakai tabel log Supabase plus key komposit (session_id, tool_name, args_hash), dan diintegrasikan dengan retry policy serta circuit budget.

Saat membantu Aris Setiawan, klien personal branding di area konsultasi hukum, menstabilkan asisten chat berbasis Next.js dan Supabase pada awal Mei 2026, kami menemukan pola pemborosan inferensi yang khas. Setiap kali user menekan tombol retry karena jawaban terasa lambat, asisten memanggil ulang seluruh tool chain, termasuk pencarian dokumen hukum dan LLM completion. Pada beban harian 800 hingga 1.200 sesi, biaya inferensi bulanan mencapai Rp 12,7 juta.

Setelah memasang Agent Tool Replay Window 180 detik dengan tabel log persisten di Supabase, biaya inferensi turun jadi Rp 7,3 juta per bulan dan determinisme sesi naik signifikan. Studi kasus ini menjelaskan konfigurasinya.

Konteks Awal

Asisten Aris menjawab pertanyaan hukum sederhana dari calon klien, mengarahkan ke artikel edukasi yang relevan, dan menjadwalkan konsultasi. Stack: Next.js 15 (App Router), Supabase Postgres, edge function untuk tool call, dan LLM completion via API berbayar.

Pola masalah:

  • Retry membakar token: rata-rata 2,8 panggilan LLM per sesi sukses.
  • Determinisme rendah: jawaban berbeda saat user refresh halaman pada percakapan yang sama.
  • Eskalasi manusia tinggi (28 persen) karena jawaban tidak konsisten.

Framework Implementasi

Langkah konfigurasi:

TahapAksi
1Buat tabel agent_tool_log (session_id, tool_name, args_hash, result_json, created_at)
2Set TTL 180 detik untuk read-only tool, 30 detik untuk write tool
3Middleware tool wrapper cek log sebelum eksekusi
4Integrasi dengan Agent Tool Retry Policy supaya retry tidak hit ulang
5Monitoring weekly: replay_hit_rate, cost_saved

Args_hash dihitung dari sha256(JSON.stringify(args)), sehingga tool call dengan argumen identik dalam jendela 180 detik akan mengembalikan hasil log tanpa hit LLM.

Hasil 30 Hari

Periode pengukuran 1 hingga 30 Mei 2026:

  • Biaya inferensi turun dari Rp 12,7 juta ke Rp 7,3 juta per bulan (hemat Rp 5,4 juta).
  • Determinisme sesi (kecocokan jawaban untuk pertanyaan identik di sesi berbeda) naik dari 0,67 ke 0,92.
  • Eskalasi ke konsultan manusia turun dari 28 persen ke 14 persen.
  • Replay hit rate stabil di 31 hingga 38 persen.
  • p95 latency turun dari 2,1 detik ke 1,3 detik karena replay hit menghemat round-trip LLM.

Konfigurasi ini melengkapi Agent Tool Circuit Budget yang sebelumnya sudah dipasang. Untuk teori dasar arsitektur agent dengan tool, dokumentasi OpenAI Function Calling tetap jadi referensi praktis.

Pertanyaan Umum

Apakah replay 180 detik bikin jawaban jadi usang?

Untuk konteks hukum edukasi (UU, peraturan, prosedur dasar), 180 detik aman karena referensi jarang berubah dalam hitungan menit. Untuk konteks finansial atau stok produk, jendela harus lebih pendek.

Bagaimana menjaga log tidak membengkak?

Pakai TTL otomatis di tabel log via pg_cron atau scheduled deletion. Aris memakai pruning otomatis 24 jam untuk log replay window.

Apakah teknik ini hanya untuk asisten hukum?

Tidak. Pola sama dipakai di asisten konsultan pajak Ade Mulyana dan asisten kurikulum Atmo LMS dengan angka penghematan berbeda.

Penutup

Replay window bukan teknik rumit, tapi efeknya signifikan kalau dipasang dengan TTL berbeda per kategori tool. Untuk personal branding berbasis chat asisten, ini cara realistis menjaga biaya inferensi sambil naikkan kualitas jawaban. Vito Atmo memakai pola yang sama di beberapa proyek klien sejak Q1 2026.

Bagikan

Artikel Terkait

#agent-tool#replay-window#case-study#asisten-hukum#nextjs-supabase

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang