Case Study

Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026

Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca

Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026

TL;DR: Asisten kurikulum Atmo LMS sebelumnya menyentuh p95 latency 1,9 detik dan biaya inferensi Rp 14,2 juta per bulan. Setelah Vito Atmo memasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 detik, p95 turun ke 1,0 detik dan biaya inferensi hemat Rp 6,1 juta per bulan dalam 31 hari.

Dalam beberapa proyek terakhir, saya melihat pola berulang di asisten edukasi: konteks menumpuk karena siswa membuka banyak modul dalam satu sesi, lalu tool agent ikut melambat karena retry chain tidak punya pagar waktu absolut. Atmo LMS menghadapi keduanya pada April 2026.

Per April 2026, dashboard internal Atmo menunjukkan p95 latency tool kurikulum di 1,9 detik dan token konteks rata-rata 12.400 per sesi. Dua angka ini ikut menaikkan biaya OpenAI bulanan ke Rp 14,2 juta. Praktik standar di industri menunjukkan bahwa pipeline RAG produktif idealnya menjaga p95 di bawah 1,2 detik dan token konteks di bawah 8.000.

Masalah yang Dihadapi

Asisten kurikulum Atmo LMS dipakai pelajar SMA untuk merangkum materi, menjawab soal latihan, dan menavigasi modul. Pola pemakaian sesi panjang membuat dua hal terjadi: pertama, LLM Context Window Utilization Rate menyentuh 94 persen pada menit ke-12. Kedua, tool kurikulum yang lambat memicu retry kaskade tanpa pagar waktu.

Pengukuran awal di pipeline produksi mencatat:

p95 latency tool kurikulum: 1.940 ms
Token konteks rata-rata per sesi: 12.400
Biaya inferensi bulanan: Rp 14,2 juta
Sesi gagal total karena retry budget habis: 9,4 persen

Framework Dua Pagar

Saya memilih dua intervensi yang saling melengkapi karena akar masalah berbeda. Deadline budget mengatasi cascade timeout di sisi tool. Compaction window mengatasi token bloat di sisi konteks.

Intervensi	Target	Setup
Deadline Budget	Hard 1.000 ms, Soft 700 ms	Per tool kurikulum, retry reserve 25 persen
Compaction Window	180 detik, ratio 3:1	Trigger di 72 persen utilisasi konteks
Fallback	Skip non-kritis	Aktif setelah hard deadline lewat
Telemetry	Per sesi	Log ke Supabase, dashboard harian

Pola ini sejalan dengan rekomendasi Google SRE Workbook tentang non-abstract large system design yang menekankan deadline propagation di seluruh pipeline.

Implementasi di Atmo LMS

Saat membangun Atmo LMS, kami sudah memakai Next.js 15 dan Supabase Edge Functions. Penambahan dua kontrol ini dilakukan tanpa migrasi besar. Edge Function untuk tool kurikulum dibungkus middleware yang menandai deadline awal sesi. Setiap retry membaca sisa budget, bukan reset hitungan.

Untuk compaction, pipeline RAG ditambah job ringan yang berjalan setiap 180 detik. Job ini meringkas potongan konteks lama menjadi blok 3:1, mirip prinsip LLM Context Compaction Ratio tapi dipicu oleh waktu, bukan utilisasi murni.

Rollout dilakukan canary 10 persen selama 5 hari, lalu 50 persen selama 7 hari, kemudian 100 persen. Tidak ada perubahan UI, sehingga pelajar tidak menyadari ada intervensi.

Hasil Setelah 31 Hari

Pengukuran setelah window 31 hari berjalan menunjukkan:

p95 latency tool kurikulum: 1.020 ms, turun 47 persen
Token konteks rata-rata per sesi: 7.100, turun 43 persen
Biaya inferensi bulanan: Rp 8,1 juta, hemat Rp 6,1 juta
Sesi gagal total: 2,1 persen, turun dari 9,4 persen

Sesi pelajar yang tadinya frustrasi karena loading panjang tetap hidup. NPS internal asisten kurikulum naik dari 32 ke 51 dalam window yang sama.

Pertanyaan Umum

Apakah pendekatan ini bisa diterapkan untuk niche selain edukasi?

Iya, pola dua pagar (deadline plus compaction) cocok untuk asisten yang sesi panjangnya tidak bisa dihindari. Saya pakai pola sejajar di asisten konsultan pajak Ade Mulyana dan asisten coaching Yuanita Sekar.

Berapa lama sampai melihat dampak?

Hard latency turun di minggu pertama. Penghematan biaya inferensi baru terlihat utuh setelah 2 sampai 4 minggu karena pola sesi pengguna butuh waktu untuk stabil.

Apakah ada risiko false positive deadline?

Ada. Saat traffic spike, soft deadline 700 ms bisa terlalu agresif. Solusinya naikkan retry reserve sementara dari 25 persen ke 35 persen selama event.

Bagaimana mengukur efektivitas compaction window?

Pantau token sebelum dan sesudah compaction, plus tingkat jawaban gagal. Angka ini bervariasi tergantung industri dan ukuran sample.

Penutup

Dua pagar sederhana, satu di sisi tool dan satu di sisi konteks, cukup memangkas hampir separuh latency dan sepertiga biaya inferensi Atmo LMS. Bagi marketer dan developer yang mengelola asisten dengan sesi panjang, kombinasi ini lebih murah dibanding upgrade model atau menambah hardware.

Studi Kasus Atmo LMS: Pasang Agent Tool Cancellation Budget 2 per Sesi di Asisten Kurikulum, Pangkas Cascading Retry 58 Persen dan Hemat Inferensi Rp 5,9 Juta per Bulan dalam 33 Hari di 2026

Studi kasus Atmo LMS pasang Agent Tool Cancellation Budget 2 per sesi 12 menit di asisten kurikulum. Pangkas cascading retry 58 persen dan hemat inferensi Rp 5,9 juta per bulan di 2026.

Case Study

Studi Kasus Ade Mulyana: Pasang LLM Context Pinning Budget 22 Persen di Asisten Konsultan Pajak, Pangkas Fact Drift dari 28 ke 4 Persen dan Selamatkan Konversi Rp 14 Juta per Bulan dalam 34 Hari di 2026

Studi kasus pasang LLM Context Pinning Budget 22 persen window di asisten konsultan pajak Ade Mulyana, pangkas fact drift 24 poin dan selamatkan konversi Rp 14 juta per bulan.

Case Study

Studi Kasus Ade Mulyana: Pangkas LLM Context Rehydration Cost Asisten Konsultan Pajak dari Multiplier 2,4x ke 1,3x dan Hemat Inferensi Rp 6,4 Juta per Bulan dalam 35 Hari di 2026

Asisten pajak Ade sering rehydrate konteks panjang berkali-kali per sesi. Audit menunjukkan 38 persen biaya inferensi bulanan adalah overhead rehydration murni.

#atmo-lms#agent-tool#deadline-budget#context-compaction#case-study

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang