Case Study

Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026

Vito Atmo
Vito Atmo·31 Mei 2026·0 kali dibaca·4 min baca
Studi Kasus Atmo LMS: Pasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 Detik di Asisten Kurikulum, Pangkas p95 Latency 47 Persen dan Hemat Inferensi Rp 6,1 Juta per Bulan dalam 31 Hari di 2026

TL;DR: Asisten kurikulum Atmo LMS sebelumnya menyentuh p95 latency 1,9 detik dan biaya inferensi Rp 14,2 juta per bulan. Setelah Vito Atmo memasang Agent Tool Deadline Budget 1.000 ms dan LLM Context Compaction Window 180 detik, p95 turun ke 1,0 detik dan biaya inferensi hemat Rp 6,1 juta per bulan dalam 31 hari.

Dalam beberapa proyek terakhir, saya melihat pola berulang di asisten edukasi: konteks menumpuk karena siswa membuka banyak modul dalam satu sesi, lalu tool agent ikut melambat karena retry chain tidak punya pagar waktu absolut. Atmo LMS menghadapi keduanya pada April 2026.

Per April 2026, dashboard internal Atmo menunjukkan p95 latency tool kurikulum di 1,9 detik dan token konteks rata-rata 12.400 per sesi. Dua angka ini ikut menaikkan biaya OpenAI bulanan ke Rp 14,2 juta. Praktik standar di industri menunjukkan bahwa pipeline RAG produktif idealnya menjaga p95 di bawah 1,2 detik dan token konteks di bawah 8.000.

Masalah yang Dihadapi

Asisten kurikulum Atmo LMS dipakai pelajar SMA untuk merangkum materi, menjawab soal latihan, dan menavigasi modul. Pola pemakaian sesi panjang membuat dua hal terjadi: pertama, LLM Context Window Utilization Rate menyentuh 94 persen pada menit ke-12. Kedua, tool kurikulum yang lambat memicu retry kaskade tanpa pagar waktu.

Pengukuran awal di pipeline produksi mencatat:

  • p95 latency tool kurikulum: 1.940 ms
  • Token konteks rata-rata per sesi: 12.400
  • Biaya inferensi bulanan: Rp 14,2 juta
  • Sesi gagal total karena retry budget habis: 9,4 persen

Framework Dua Pagar

Saya memilih dua intervensi yang saling melengkapi karena akar masalah berbeda. Deadline budget mengatasi cascade timeout di sisi tool. Compaction window mengatasi token bloat di sisi konteks.

IntervensiTargetSetup
Deadline BudgetHard 1.000 ms, Soft 700 msPer tool kurikulum, retry reserve 25 persen
Compaction Window180 detik, ratio 3:1Trigger di 72 persen utilisasi konteks
FallbackSkip non-kritisAktif setelah hard deadline lewat
TelemetryPer sesiLog ke Supabase, dashboard harian

Pola ini sejalan dengan rekomendasi Google SRE Workbook tentang non-abstract large system design yang menekankan deadline propagation di seluruh pipeline.

Implementasi di Atmo LMS

Saat membangun Atmo LMS, kami sudah memakai Next.js 15 dan Supabase Edge Functions. Penambahan dua kontrol ini dilakukan tanpa migrasi besar. Edge Function untuk tool kurikulum dibungkus middleware yang menandai deadline awal sesi. Setiap retry membaca sisa budget, bukan reset hitungan.

Untuk compaction, pipeline RAG ditambah job ringan yang berjalan setiap 180 detik. Job ini meringkas potongan konteks lama menjadi blok 3:1, mirip prinsip LLM Context Compaction Ratio tapi dipicu oleh waktu, bukan utilisasi murni.

Rollout dilakukan canary 10 persen selama 5 hari, lalu 50 persen selama 7 hari, kemudian 100 persen. Tidak ada perubahan UI, sehingga pelajar tidak menyadari ada intervensi.

Hasil Setelah 31 Hari

Pengukuran setelah window 31 hari berjalan menunjukkan:

  • p95 latency tool kurikulum: 1.020 ms, turun 47 persen
  • Token konteks rata-rata per sesi: 7.100, turun 43 persen
  • Biaya inferensi bulanan: Rp 8,1 juta, hemat Rp 6,1 juta
  • Sesi gagal total: 2,1 persen, turun dari 9,4 persen

Sesi pelajar yang tadinya frustrasi karena loading panjang tetap hidup. NPS internal asisten kurikulum naik dari 32 ke 51 dalam window yang sama.

Pertanyaan Umum

Apakah pendekatan ini bisa diterapkan untuk niche selain edukasi?

Iya, pola dua pagar (deadline plus compaction) cocok untuk asisten yang sesi panjangnya tidak bisa dihindari. Saya pakai pola sejajar di asisten konsultan pajak Ade Mulyana dan asisten coaching Yuanita Sekar.

Berapa lama sampai melihat dampak?

Hard latency turun di minggu pertama. Penghematan biaya inferensi baru terlihat utuh setelah 2 sampai 4 minggu karena pola sesi pengguna butuh waktu untuk stabil.

Apakah ada risiko false positive deadline?

Ada. Saat traffic spike, soft deadline 700 ms bisa terlalu agresif. Solusinya naikkan retry reserve sementara dari 25 persen ke 35 persen selama event.

Bagaimana mengukur efektivitas compaction window?

Pantau token sebelum dan sesudah compaction, plus tingkat jawaban gagal. Angka ini bervariasi tergantung industri dan ukuran sample.

Penutup

Dua pagar sederhana, satu di sisi tool dan satu di sisi konteks, cukup memangkas hampir separuh latency dan sepertiga biaya inferensi Atmo LMS. Bagi marketer dan developer yang mengelola asisten dengan sesi panjang, kombinasi ini lebih murah dibanding upgrade model atau menambah hardware.

Bagikan

Artikel Terkait

#atmo-lms#agent-tool#deadline-budget#context-compaction#case-study

Butuh website yang benar-benar bekerja?

Hubungi Vito untuk konsultasi gratis 15 menit.

WhatsApp Sekarang