Digital Transformation

LLM Context Shard Affinity

Vito Atmo·31 Mei 2026·0 kali dibaca·2 min baca

TL;DR: LLM Context Shard Affinity adalah strategi mengikat sesi pengguna ke shard konteks LLM tertentu agar cache embedding dan history tetap konsisten. Affinity yang sehat menahan sesi di shard yang sama selama 8-15 menit, memangkas rehydration cost 30-45 persen dan menjaga p95 latency di bawah 800 ms.

Apa itu LLM Context Shard Affinity?

LLM Context Shard Affinity adalah aturan routing yang memastikan satu sesi pengguna selalu masuk ke shard konteks LLM yang sama selama sesi aktif. Konsep ini saudara dekat LLM Context Pinning Budget yang memilih item konteks untuk dipertahankan, sementara shard affinity memilih shard fisik tempat konteks tersimpan.

Analoginya seperti kasir di supermarket. Kalau pelanggan pindah-pindah kasir, setiap kasir harus scan ulang seluruh keranjang belanja. Affinity menjaga satu pelanggan tetap di satu kasir, jadi scan hanya sekali.

Cara Kerja dan Range Praktis

Implementasi umum di Next.js Supabase: hash session_id ke shard_id pakai consistent hashing, simpan mapping di Redis dengan TTL 8-15 menit.

Durasi Affinity	Interpretasi	Risiko
Di bawah 5 menit	Terlalu pendek, sering rehydration	LLM Context Rehydration Cost multiplier 2x lebih tinggi
8 sampai 15 menit	Range sehat untuk asisten coaching/booking	Tail latency stabil, biaya hemat 30-45 persen
15 sampai 30 menit	Cocok untuk konsultasi panjang	Risiko ketimpangan beban antar-shard
Di atas 30 menit	Beban shard tidak merata	Perlu LLM Context Shard Rebalance lebih sering

Kenapa Penting?

Tanpa shard affinity, setiap turn percakapan berpotensi menghantam shard berbeda, memaksa pipeline RAG meng-rehydrate embedding dan history dari storage dingin. Praktik standar di proyek Vito Atmo: affinity TTL 12 menit untuk asisten coaching dan booking, dievaluasi mingguan terhadap rasio cache hit. Pendekatan ini biasanya menghemat inferensi 4-7 juta per bulan untuk asisten dengan 10 ribu sesi bulanan.

Pertanyaan Umum

Apakah shard affinity sama dengan sticky session?

Konsepnya mirip. Sticky session umumnya untuk web server, sementara shard affinity khusus mengarah ke shard konteks LLM yang menyimpan embedding dan history sesi.

Bagaimana kalau shard tujuan down?

Pakai fallback ke shard tetangga via consistent hashing ring, lalu mark affinity baru sampai shard utama sehat lagi.

Istilah Terkait

Agent Tool Handoff Latency LLM Context Pinning Budget LLM Context Rehydration Cost LLM Context Shard Rebalance

Semua Istilah Ada pertanyaan? →