Digital Transformation
Agent Tool Streaming Buffer
TL;DR: Agent Tool Streaming Buffer adalah lapisan antrian sementara yang menampung token dari output tool-call sebelum diteruskan ke LLM agent. Buffer mencegah retry penuh saat tool-call gagal di tengah jalan dan menstabilkan latency p95 di rentang 380 hingga 620 ms untuk asisten yang memanggil 3-5 tool per turn.
Apa itu Agent Tool Streaming Buffer?
Agent Tool Streaming Buffer adalah komponen middleware di pipeline agent yang menampung sebagian output tool-call sebelum LLM membaca hasilnya secara streaming. Tanpa buffer, kegagalan jaringan di tengah streaming biasanya memaksa agent melakukan retry penuh, yang membakar token dan menaikkan latency. Dengan buffer, agent dapat melanjutkan dari titik terakhir yang tersimpan tanpa memanggil ulang tool dari awal.
Konsep ini melengkapi Agent Tool Retry Policy dan Agent Tool Circuit Budget, tetapi bekerja di lapisan transport, bukan di lapisan keputusan retry.
Cara Kerja
| Komponen | Fungsi |
|---|---|
| Buffer window | Jendela 4-16 KB yang menampung partial output sebelum di-flush ke LLM |
| Resume token | ID kursor yang memungkinkan tool melanjutkan stream dari titik terakhir |
| Flush trigger | Threshold byte atau interval ms yang memaksa buffer dikirim ke agent |
| Timeout fallback | Jika resume gagal, agent jatuh ke jawaban parsial, bukan retry penuh |
Dalam praktik proyek Atmo LMS, buffer 8 KB dengan flush interval 120 ms berhasil menstabilkan p95 latency tool-call asisten kurikulum dari 1,4 detik ke 540 ms tanpa menaikkan biaya inferensi.
Kenapa Penting?
Bagi marketer Indonesia yang membangun asisten AI di atas Next.js dan Supabase, streaming buffer adalah pertahanan praktis terhadap koneksi mobile yang tidak stabil. Per April 2026, Indonesia masih memiliki rata-rata packet loss 1,8 persen di jaringan 4G di luar Jakarta dan Surabaya, sehingga buffer menjadi pembeda antara asisten yang terasa responsif dan asisten yang sering "loading lama". Buffer juga menghemat biaya inferensi karena retry penuh adalah penyebab utama tagihan tak terduga.
Pertanyaan Umum
Apakah buffer ini sama dengan caching?
Tidak. Cache menyimpan hasil tool-call lama untuk dipakai ulang di sesi berikutnya. Buffer menyimpan sebagian hasil yang sedang berjalan untuk menahan kegagalan parsial dalam satu sesi.
Ukuran buffer ideal berapa?
Mulai dari 4 KB untuk asisten ringan dan naikkan ke 16 KB untuk asisten yang sering memanggil tool retrieval besar. Ukuran terlalu besar menaikkan time-to-first-token, terlalu kecil tidak menahan kegagalan.
Istilah Terkait