Case Study

Studi Kasus Atmo LMS: Pasang Agent Tool Replay Budget 3 Replay di Asisten Kurikulum, Pangkas Biaya Inferensi Rp 6,8 Juta per Bulan dan Stabilkan Determinisme Sesi 0,94 dalam 32 Hari di 2026

A
Admin·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Atmo LMS: Pasang Agent Tool Replay Budget 3 Replay di Asisten Kurikulum, Pangkas Biaya Inferensi Rp 6,8 Juta per Bulan dan Stabilkan Determinisme Sesi 0,94 dalam 32 Hari di 2026

TL;DR: Tim Atmo LMS memasang Agent Tool Replay Budget 3 replay per sesi di asisten kurikulum, dari sebelumnya tanpa batas. Hasil 32 hari kerja sejak April 2026: biaya inferensi turun sekitar Rp 6,8 juta per bulan, determinisme sesi naik dari 0,71 ke 0,94, dan completion rate modul tetap stabil di atas 88 persen.

Saat tim Atmo LMS menambah jumlah tool di asisten kurikulum dari 6 ke 14 awal April 2026, biaya inferensi langsung naik 41 persen dalam dua pekan. Tracing menunjukkan pola yang sama berulang: tool retriever modul dipanggil 4 sampai 7 kali per sesi dengan input nyaris identik, masing-masing membakar token tanpa menambah informasi baru.

Pada periode tersebut, asisten kurikulum sebetulnya sudah memakai Agent Tool Replay Window untuk membatasi durasi cache. Tetapi durasi yang lebar tanpa pagar jumlah membuat sistem tetap memutar ulang tool call selama window terbuka. Kami butuh pagar kedua di sumbu jumlah replay.

Konteks Sebelum Intervensi

Atmo LMS adalah platform learning management yang dipakai komunitas marketer Indonesia. Asisten kurikulumnya menjawab pertanyaan peserta seputar modul, kuis, dan jadwal mentoring. Per Maret 2026, asisten ini menangani sekitar 4.200 sesi unik per minggu.

Baseline 30 hari sebelum intervensi menunjukkan tiga gejala. Pertama, rata-rata 4,7 replay per sesi pada tool retriever modul. Kedua, determinisme jawaban (kesamaan jawaban untuk pertanyaan identik) hanya 0,71 dalam skala 0 ke 1. Ketiga, p95 latency total sesi melampaui 4,2 detik, di atas budget 2,8 detik yang kami targetkan.

Framework Replay Budget yang Dipakai

LapisAturanNilai yang Dipasang
Per tool callMaks replay dalam 1 sesi3
Per sesiTotal replay lintas tool8
Fallback policySetelah batas tercapaiPakai jawaban cache atau eskalasi ke draft
TelemetryLogging metrik per toolKirim ke tabel agent_telemetry Supabase
Audit windowReviu mingguanSetiap Senin pagi

Framework ini berdiri di atas Agent Tool Replay Budget dan dipadukan dengan Agent Tool Timeout Budget 1,4 detik. Logika fallback ditulis di edge function Supabase yang sama dengan rerank pipeline.

Studi Kasus Implementasi Atmo LMS

Implementasi dipecah ke tiga fase agar mudah dibalik jika ada regresi.

Fase pertama (hari 1 sampai 8): pasang counter replay per tool call di middleware agent. Counter disimpan di Redis dengan TTL 90 detik (selama sesi aktif). Tidak ada penurunan biaya di fase ini karena belum ada threshold aktif. Tujuan fase ini hanya memastikan instrumentation akurat.

Fase kedua (hari 9 sampai 18): aktifkan threshold 3 replay per tool dengan fallback policy. Jika threshold tercapai, sistem mengembalikan jawaban dari cache sebelumnya atau menyajikan template draft yang sudah disiapkan tim kurikulum. Biaya inferensi mulai turun signifikan pada hari ke-12, sekitar 22 persen dari baseline.

Fase ketiga (hari 19 sampai 32): kalibrasi sweet spot. Awalnya 2 replay terlalu agresif, menyebabkan completion rate turun ke 84 persen. Kami menaikkan ke 3 replay dan completion rate kembali ke 88 sampai 90 persen. Determinisme sesi stabil di 0,94 sejak hari ke-24.

Pengalaman dari proyek Atmo menunjukkan bahwa sweet spot replay budget bergantung pada volatilitas konten sumber. Modul yang sering diperbarui (misal jadwal mentoring) butuh budget lebih kecil supaya cache tidak menjadi sumber jawaban basi. Modul stabil (misal definisi konsep) bisa pakai budget lebih besar.

Hasil Akhir 32 Hari

Tiga metrik utama setelah 32 hari kerja:

  • Biaya inferensi: turun dari Rp 18,4 juta ke Rp 11,6 juta per bulan (selisih Rp 6,8 juta atau 37 persen)
  • Determinisme sesi: naik dari 0,71 ke 0,94
  • p95 latency total: turun dari 4,2 detik ke 2,6 detik

Completion rate modul tetap di rentang 88 sampai 91 persen, dalam batas natural fluctuation berdasarkan praktik standar industri yang dirangkum Google Search Central untuk pengukuran user behavior.

Pertanyaan Umum

Berapa lama sampai melihat hasil?

Dampak biaya terlihat pada minggu kedua. Determinisme dan latency stabil pada minggu keempat.

Apakah replay budget mengurangi kualitas jawaban?

Tidak signifikan jika threshold dikalibrasi. Pada Atmo LMS, completion rate hanya turun 2 sampai 3 poin saat batas terlalu agresif (2 replay) dan kembali normal di 3 replay.

Bagaimana cara replikasi untuk asisten lain?

Mulai dari instrumentation (counter per tool call), kumpulkan baseline 7 sampai 14 hari, lalu set threshold pada percentile 75 distribusi replay. Kalibrasi mingguan.

Insight Aplikatif

Replay budget bukan optimasi mikro. Untuk asisten dengan lebih dari 8 tool, ia menjadi pagar paling murah yang memangkas biaya tanpa mengubah model atau prompt. Praktik standar yang dipakai di proyek Vito Atmo lainnya menempatkan replay budget sebagai control pertama sebelum memperkenalkan caching agresif atau model lebih ringan.

Bagikan

Artikel Terkait

#agent-tool-replay-budget#atmo-lms#supabase#inferensi-biaya

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang