Digital Transformation
LLM Context Shard Affinity
TL;DR: LLM Context Shard Affinity adalah strategi mengikat sesi pengguna ke shard konteks LLM tertentu agar cache embedding dan history tetap konsisten. Affinity yang sehat menahan sesi di shard yang sama selama 8-15 menit, memangkas rehydration cost 30-45 persen dan menjaga p95 latency di bawah 800 ms.
Apa itu LLM Context Shard Affinity?
LLM Context Shard Affinity adalah aturan routing yang memastikan satu sesi pengguna selalu masuk ke shard konteks LLM yang sama selama sesi aktif. Konsep ini saudara dekat LLM Context Pinning Budget yang memilih item konteks untuk dipertahankan, sementara shard affinity memilih shard fisik tempat konteks tersimpan.
Analoginya seperti kasir di supermarket. Kalau pelanggan pindah-pindah kasir, setiap kasir harus scan ulang seluruh keranjang belanja. Affinity menjaga satu pelanggan tetap di satu kasir, jadi scan hanya sekali.
Cara Kerja dan Range Praktis
Implementasi umum di Next.js Supabase: hash session_id ke shard_id pakai consistent hashing, simpan mapping di Redis dengan TTL 8-15 menit.
| Durasi Affinity | Interpretasi | Risiko |
|---|---|---|
| Di bawah 5 menit | Terlalu pendek, sering rehydration | LLM Context Rehydration Cost multiplier 2x lebih tinggi |
| 8 sampai 15 menit | Range sehat untuk asisten coaching/booking | Tail latency stabil, biaya hemat 30-45 persen |
| 15 sampai 30 menit | Cocok untuk konsultasi panjang | Risiko ketimpangan beban antar-shard |
| Di atas 30 menit | Beban shard tidak merata | Perlu LLM Context Shard Rebalance lebih sering |
Kenapa Penting?
Tanpa shard affinity, setiap turn percakapan berpotensi menghantam shard berbeda, memaksa pipeline RAG meng-rehydrate embedding dan history dari storage dingin. Praktik standar di proyek Vito Atmo: affinity TTL 12 menit untuk asisten coaching dan booking, dievaluasi mingguan terhadap rasio cache hit. Pendekatan ini biasanya menghemat inferensi 4-7 juta per bulan untuk asisten dengan 10 ribu sesi bulanan.
Pertanyaan Umum
Apakah shard affinity sama dengan sticky session?
Konsepnya mirip. Sticky session umumnya untuk web server, sementara shard affinity khusus mengarah ke shard konteks LLM yang menyimpan embedding dan history sesi.
Bagaimana kalau shard tujuan down?
Pakai fallback ke shard tetangga via consistent hashing ring, lalu mark affinity baru sampai shard utama sehat lagi.
Istilah Terkait