Case Study

Studi Kasus Aris Setiawan: Pasang Agent Tool Replay Window 180 Detik di Asisten Konsultasi Hukum, Pangkas Biaya Inferensi Rp 5,4 Juta per Bulan dan Stabilkan Determinisme Sesi 0,92 dalam 30 Hari di 2026

Vito Atmo·30 Mei 2026·0 kali dibaca·3 min baca

Studi Kasus Aris Setiawan: Pasang Agent Tool Replay Window 180 Detik di Asisten Konsultasi Hukum, Pangkas Biaya Inferensi Rp 5,4 Juta per Bulan dan Stabilkan Determinisme Sesi 0,92 dalam 30 Hari di 2026

TL;DR: Implementasi Agent Tool Replay Window 180 detik di asisten konsultasi hukum personal branding Aris Setiawan menurunkan biaya inferensi sekitar Rp 5,4 juta per bulan dan menaikkan determinisme sesi dari 0,67 ke 0,92 dalam 30 hari. Konfigurasi memakai tabel log Supabase plus key komposit (session_id, tool_name, args_hash), dan diintegrasikan dengan retry policy serta circuit budget.

Saat membantu Aris Setiawan, klien personal branding di area konsultasi hukum, menstabilkan asisten chat berbasis Next.js dan Supabase pada awal Mei 2026, kami menemukan pola pemborosan inferensi yang khas. Setiap kali user menekan tombol retry karena jawaban terasa lambat, asisten memanggil ulang seluruh tool chain, termasuk pencarian dokumen hukum dan LLM completion. Pada beban harian 800 hingga 1.200 sesi, biaya inferensi bulanan mencapai Rp 12,7 juta.

Setelah memasang Agent Tool Replay Window 180 detik dengan tabel log persisten di Supabase, biaya inferensi turun jadi Rp 7,3 juta per bulan dan determinisme sesi naik signifikan. Studi kasus ini menjelaskan konfigurasinya.

Konteks Awal

Asisten Aris menjawab pertanyaan hukum sederhana dari calon klien, mengarahkan ke artikel edukasi yang relevan, dan menjadwalkan konsultasi. Stack: Next.js 15 (App Router), Supabase Postgres, edge function untuk tool call, dan LLM completion via API berbayar.

Pola masalah:

Retry membakar token: rata-rata 2,8 panggilan LLM per sesi sukses.
Determinisme rendah: jawaban berbeda saat user refresh halaman pada percakapan yang sama.
Eskalasi manusia tinggi (28 persen) karena jawaban tidak konsisten.

Framework Implementasi

Langkah konfigurasi:

Tahap	Aksi
1	Buat tabel `agent_tool_log` (session_id, tool_name, args_hash, result_json, created_at)
2	Set TTL 180 detik untuk read-only tool, 30 detik untuk write tool
3	Middleware tool wrapper cek log sebelum eksekusi
4	Integrasi dengan Agent Tool Retry Policy supaya retry tidak hit ulang
5	Monitoring weekly: replay_hit_rate, cost_saved

Args_hash dihitung dari sha256(JSON.stringify(args)), sehingga tool call dengan argumen identik dalam jendela 180 detik akan mengembalikan hasil log tanpa hit LLM.

Hasil 30 Hari

Periode pengukuran 1 hingga 30 Mei 2026:

Biaya inferensi turun dari Rp 12,7 juta ke Rp 7,3 juta per bulan (hemat Rp 5,4 juta).
Determinisme sesi (kecocokan jawaban untuk pertanyaan identik di sesi berbeda) naik dari 0,67 ke 0,92.
Eskalasi ke konsultan manusia turun dari 28 persen ke 14 persen.
Replay hit rate stabil di 31 hingga 38 persen.
p95 latency turun dari 2,1 detik ke 1,3 detik karena replay hit menghemat round-trip LLM.

Konfigurasi ini melengkapi Agent Tool Circuit Budget yang sebelumnya sudah dipasang. Untuk teori dasar arsitektur agent dengan tool, dokumentasi OpenAI Function Calling tetap jadi referensi praktis.

Pertanyaan Umum

Apakah replay 180 detik bikin jawaban jadi usang?

Untuk konteks hukum edukasi (UU, peraturan, prosedur dasar), 180 detik aman karena referensi jarang berubah dalam hitungan menit. Untuk konteks finansial atau stok produk, jendela harus lebih pendek.

Bagaimana menjaga log tidak membengkak?

Pakai TTL otomatis di tabel log via pg_cron atau scheduled deletion. Aris memakai pruning otomatis 24 jam untuk log replay window.

Apakah teknik ini hanya untuk asisten hukum?

Tidak. Pola sama dipakai di asisten konsultan pajak Ade Mulyana dan asisten kurikulum Atmo LMS dengan angka penghematan berbeda.

Penutup

Replay window bukan teknik rumit, tapi efeknya signifikan kalau dipasang dengan TTL berbeda per kategori tool. Untuk personal branding berbasis chat asisten, ini cara realistis menjaga biaya inferensi sambil naikkan kualitas jawaban. Vito Atmo memakai pola yang sama di beberapa proyek klien sejak Q1 2026.

Studi Kasus Atmo LMS: Pasang Agent Tool Replay Budget 3 Replay di Asisten Kurikulum, Pangkas Biaya Inferensi Rp 6,8 Juta per Bulan dan Stabilkan Determinisme Sesi 0,94 dalam 32 Hari di 2026

Studi kasus Atmo LMS memasang Agent Tool Replay Budget 3 replay per sesi, memangkas biaya inferensi Rp 6,8 juta per bulan dan menstabilkan determinisme sesi ke 0,94 selama 32 hari kerja di 2026.

Case Study

Studi Kasus Nalesha: Turunkan AEO Snippet Handoff Latency Konten Parfum dari 214 Detik ke 68 Detik dan Lipat Duakan Klik Referer Perplexity dalam 39 Hari di 2026

Studi kasus Nalesha menurunkan AEO Snippet Handoff Latency dari 214 detik ke 68 detik. Klik referer Perplexity naik dua kali lipat, CTR organik dari sitasi AI lompat ke 2,8 persen.

Case Study

Studi Kasus Ryandi Pratama: Naikkan AEO Snippet Claim Density Konten Edukasi Finansial dari 0,9 ke 2,7 Klaim per 100 Kata dan Lipat Tiga Sitasi Perplexity Selama 38 Hari di 2026

Tanpa menulis ulang konten, tambah 1 angka konkret per paragraf. Hasilnya: sitasi Perplexity naik 3x, klik organik dari AI Overview membaik 41%, lead konsultasi finansial naik 22%.

#agent-tool#replay-window#case-study#asisten-hukum#nextjs-supabase

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang