Digital Transformation

LLM Context Shard Handoff

Vito Atmo
Vito Atmo·1 Juni 2026·0 kali dibaca·3 min baca

TL;DR: LLM Context Shard Handoff adalah proses memindahkan potongan konteks (shard) dari satu agen ke agen lain tanpa menyalin seluruh window. Praktik sehat di 2026: handoff hanya mengirim shard reference dan ringkasan 80 sampai 200 token, supaya total konsumsi context window tetap di bawah 30 persen kapasitas. Tanpa shard handoff yang rapi, multi-agent sering kehabisan token sebelum task selesai.

Apa itu LLM Context Shard Handoff?

LLM Context Shard Handoff adalah pola di multi-agent system yang membagi context window menjadi shard (potongan logis) sehingga setiap agen hanya menerima shard yang relevan, bukan seluruh history. Pola ini berhubungan dengan llm context window dan agent handoff.

Tanpa shard handoff, multi-agent yang panjang akan menggandakan konteks di setiap handoff, sehingga jumlah token cepat membengkak. Hasilnya: biaya inferensi naik dan latency p95 ikut naik karena model harus memproses konteks redundant.

Cara Kerja

TahapYang dikirim
Sebelum handoffShard reference (ID) + ringkasan 80 sampai 200 token
Saat handoffAgen baru menerima reference, bukan isi full
Saat agen baru butuh detailFetch shard dari store, bukan dari context window
Setelah handoffShard lama dievict atau dipindah ke cold storage

Pola ini juga dikenal sebagai context pinning dengan reference, dan saling melengkapi dengan llm context warm pool budget untuk mengelola shard yang sering dipakai ulang.

Kenapa Penting?

Dalam asisten coaching Ryandi Pratama yang Vito Atmo bangun di Mei 2026, sebelum shard handoff diterapkan, total konteks per sesi mencapai 18.000 token (sekitar 45 persen dari window 40k). Setelah shard handoff dengan ringkasan 150 token plus reference, konsumsi turun ke 9.500 token (24 persen) tanpa kehilangan kualitas jawaban. Biaya inferensi per sesi turun sekitar 38 persen pada sample 600 sesi.

Untuk marketer yang membangun funnel AI multi-step (lead qualification, scheduling, follow-up), shard handoff yang rapi menentukan apakah biaya per lead tetap di bawah target atau membengkak saat skala. Lihat juga agent tool budget untuk konteks budgeting yang lebih luas.

Pertanyaan Umum

Apa beda shard handoff dengan context compaction?

Llm context compaction ratio memadatkan satu konteks panjang menjadi ringkasan, sementara shard handoff memecah konteks menjadi unit independen yang bisa dipindah.

Apakah semua handoff perlu shard?

Tidak. Untuk handoff antar agen dalam satu task pendek, full context masih bisa dipakai. Shard handoff wajib untuk task yang melibatkan 3 agen atau lebih.

Bagikan