글
작성한 글 목록입니다.
작성한 글 목록입니다.
만들고 싶은 것을 한 줄로 적으면, 디렉터가 작업을 쪼개고, 전문 에이전트들을 소환하고, 서로 메시지를 주고받으며 일을 끝낸다. 그리고 우리는 그걸 **3D VTuber로 실시간 관전**한다.
Mamba-3는 기존 Mamba-2의 한계(상태 추적 취약, 하드웨어 비효율)를 복소수 SSM, 사다리꼴 이산화, MIMO 세 가지 개선으로 극복해 Transformer보다 빠르고 더 정확한 언어 모델을 구현한 논문입니다.
Anthropic이 제안한 MCP의 구조와 작동 원리를 깊이 파헤칩니다. Host, Client, Server의 역할 분리부터 직접 MCP 서버를 만드는 실습 코드까지 한 번에 정리합니다.
LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
SGLang이 제안한 RadixAttention의 핵심 원리를 파헤칩니다. Radix Tree 자료구조로 KV Cache를 자동 재사용하는 방식, vLLM의 Prefix Caching과의 차이, 그리고 실제 성능까지 정리합니다.
LLM 추론의 자기회귀 병목을 해결하는 Speculative Decoding의 원리를 파헤칩니다. 드래프트 모델, 검증 메커니즘, 수용률, 그리고 Self-Speculative Decoding까지 한 번에 정리합니다.
Attention의 O(T²) 병목을 없앤 상태 공간 모델(SSM) Mamba의 핵심 원리를 파헤칩니다. 선택적 상태 공간, 하드웨어 인식 병렬화, 그리고 Transformer와의 성능 비교까지 정리합니다.