#KV Cache
2개의 글
AI / Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복6분LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AILLMKV Cache추론최적화vLLMGQAMLA서빙AI / Inference
RadixAttention: KV Cache 재사용을 자동화하는 기발한 아이디어5분SGLang이 제안한 RadixAttention의 핵심 원리를 파헤칩니다. Radix Tree 자료구조로 KV Cache를 자동 재사용하는 방식, vLLM의 Prefix Caching과의 차이, 그리고 실제 성능까지 정리합니다.
AILLMRadixAttentionSGLangKV Cache추론최적화서빙자료구조