글

작성한 글 목록입니다.

AI/AGENT
Autonoma — 에이전트 군집을 "관전"하는 라이브 캐스트
5분3주 전
만들고 싶은 것을 한 줄로 적으면, 디렉터가 작업을 쪼개고, 전문 에이전트들을 소환하고, 서로 메시지를 주고받으며 일을 끝낸다. 그리고 우리는 그걸 **3D VTuber로 실시간 관전**한다.
AI/ML
Conformal Prediction: 머신러닝 예측에 신뢰를 더하는 방법
4분1개월 전
Conformal Prediction DL ML
AI
Mamba-3: 상태 공간 원리로 시퀀스 모델링을 한 단계 끌어올리다
4분1개월 전
Mamba-3는 기존 Mamba-2의 한계(상태 추적 취약, 하드웨어 비효율)를 복소수 SSM, 사다리꼴 이산화, MIMO 세 가지 개선으로 극복해 Transformer보다 빠르고 더 정확한 언어 모델을 구현한 논문입니다.
Mamba Transformer
AI
OpenJarvis
5분1개월 전
AI/AGENT/MCP
MCP(Model Context Protocol) 완전 정복 — AI와 도구를 연결하는 USB-C
5분2개월 전
Anthropic이 제안한 MCP의 구조와 작동 원리를 깊이 파헤칩니다. Host, Client, Server의 역할 분리부터 직접 MCP 서버를 만드는 실습 코드까지 한 번에 정리합니다.
AI Agent MCP Anthropic LLM 도구연결 오픈소스 프로토콜
AI/Inference
AI 추론 비용 줄이기 — KV Cache 완전 정복
6분2개월 전
LLM 추론의 핵심 병목인 KV Cache의 원리부터 최신 최적화 기법(MLA, GQA, Sliding Window, Prefix Caching)까지 한 번에 정리합니다. vLLM PagedAttention과도 연결해서 설명합니다.
AI LLM KV Cache 추론최적화 vLLM GQA MLA 서빙
AI/Inference
Prefill-Decode 분리(PD Disaggregation): LLM 서빙의 새로운 표준
5분2개월 전
2025년 LLM 서빙의 표준이 된 Prefill-Decode 분리(PD Disaggregation)의 원리를 파헤칩니다. Prefill과 Decode가 왜 다른 자원을 필요로 하는지, TTFT와 TPOT를 동시에 잡는 방법, DistServe에서 NVIDIA Dynamo까지 정리합니다.
AI LLM 추론최적화 서빙 DistServe PD분리 TTFT TPOT vLLM SGLang
AI/Inference
RadixAttention: KV Cache 재사용을 자동화하는 기발한 아이디어
5분2개월 전
SGLang이 제안한 RadixAttention의 핵심 원리를 파헤칩니다. Radix Tree 자료구조로 KV Cache를 자동 재사용하는 방식, vLLM의 Prefix Caching과의 차이, 그리고 실제 성능까지 정리합니다.
AI LLM RadixAttention SGLang KV Cache 추론최적화 서빙 자료구조
AI/Inference
Speculative Decoding: 작은 모델로 큰 모델을 빠르게 만들기
5분2개월 전
LLM 추론의 자기회귀 병목을 해결하는 Speculative Decoding의 원리를 파헤칩니다. 드래프트 모델, 검증 메커니즘, 수용률, 그리고 Self-Speculative Decoding까지 한 번에 정리합니다.
AI LLM 추론최적화 Speculative Decoding 서빙 vLLM 속도
AI/LLM
Transformer 없이 언어 모델 만들기 — Mamba(SSM) 완전 정복
4분2개월 전
Attention의 O(T²) 병목을 없앤 상태 공간 모델(SSM) Mamba의 핵심 원리를 파헤칩니다. 선택적 상태 공간, 하드웨어 인식 병렬화, 그리고 Transformer와의 성능 비교까지 정리합니다.
AI LLM 논문리뷰 Mamba SSM 상태공간모델 아키텍처 딥러닝