글 목록/태그

#서빙

5개의 글

AI / Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복
6분2개월 전
LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AILLMKV Cache추론최적화vLLMGQAMLA서빙
AI / Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준
5분2개월 전
2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AILLM추론최적화서빙DistServePD분리TTFTTPOTvLLMSGLang
AI / Inference
RadixAttention: KV Cache 재사용을 자동화하는 기발한 아이디어
5분2개월 전
SGLang이 제안한 RadixAttention의 핵심 원리를 파헤칩니다. Radix Tree 자료구조로 KV Cache를 자동 재사용하는 방식, vLLM의 Prefix Caching과의 차이, 그리고 실제 성능까지 정리합니다.
AILLMRadixAttentionSGLangKV Cache추론최적화서빙자료구조
AI / Inference
Speculative Decoding: 작은 모델로 큰 모델을 빠르게 만들기
5분2개월 전
LLM 추론의 자기회귀 병목을 해결하는 Speculative Decoding의 원리를 파헤칩니다. 드래프트 모델, 검증 메커니즘, 수용률, 그리고 Self-Speculative Decoding까지 한 번에 정리합니다.
AILLM추론최적화Speculative Decoding서빙vLLM속도
AI / Inference
Efficient Memory Management for Large Language Model Serving with PagedAttention
4분9개월 전
vLLM의 핵심 알고리즘 PagedAttention 논문 리뷰. KV cache를 OS의 가상 메모리처럼 관리해 기존 시스템 대비 2~4× 처리량 향상을 달성한 방법을 정리합니다.
AILLM논문리뷰vLLMPagedAttentionKV cache메모리관리서빙