본문으로 건너뛰기
🐨코알라 오딧세이
🐨
이다운
코알라 오딧세이

새 글 알림 받기

© 2026 이다운

글 목록
수업/머신러닝

[5,6주차] VAE (Variational Autoencoder) 예습

박사과정 비지도학습방법론 수업 5,6주차 예습 — VAE의 원리, 리파라미터화 트릭, 손실 함수 및 활용 사례 정리

[5,6주차] VAE (Variational Autoencoder) 예습

대학원 수업 / 비지도학습방법론

비지도 학습 방법론 수업의 5, 6주차 주제인 Variational Autoencoder(VAE) 를 예습하기 위해 공부한 내용을 정리해보겠습니다.


VAE란?

최근 인공지능 분야에서 생성 모델(Generative Model) 이 많은 관심을 받고 있습니다. 그 중 VAE는 데이터의 잠재 공간(latent space) 을 효율적으로 표현하여 새로운 데이터를 생성하는 모델로, 오토인코더(Autoencoder)의 확장된 버전입니다. 확률론적 모델링(probabilistic modeling)과 딥러닝 기술이 결합된 대표적인 예제로, 이미지·음성·텍스트 등 다양한 데이터에 적용됩니다.


AutoEncoder vs VAE

전통적인 오토인코더는 인코더와 디코더로 구성됩니다.

  • 인코더(Encoder): 원본 데이터를 압축하여 잠재 공간의 벡터로 표현합니다.
  • 디코더(Decoder): 잠재 벡터로부터 원본 데이터를 복원합니다.

그러나 단순한 오토인코더는 결정론적(deterministic) 매핑을 수행하여 잠재 공간이 명확한 확률적 구조를 갖지 않습니다. 새로운 데이터를 생성하기에는 한계가 있습니다.

VAE는 이 한계를 극복하기 위해 확률론적 모델을 도입합니다.

  • 각 데이터 포인트를 단순한 점이 아닌 잠재 공간 상의 확률 분포(다변량 정규분포) 로 표현합니다.
  • 인코더가 입력 데이터를 받아 평균(mean)과 분산(variance) 을 출력하여, 잠재 분포의 파라미터를 예측합니다.
  • 이를 통해 잠재 공간의 연속적인 구조와 부드러운 변화를 보장하며, 새로운 샘플 생성이 가능해집니다.

VAE의 구성 요소

인코더 (Encoder)

  • 입력: 원본 데이터 (이미지, 텍스트 등)
  • 출력: 잠재 변수의 분포 파라미터 — 평균 μ\mu와 로그 분산 log(σ2)\log(\sigma^2)
  • 역할: 입력 데이터에 대응하는 확률 분포를 정의하여, 데이터 간의 잠재적 유사성을 확률적 관점에서 표현

디코더 (Decoder)

  • 입력: 인코더로부터 샘플링한 잠재 변수 zz
  • 출력: 복원된 데이터
  • 역할: 잠재 공간의 점으로부터 원본 데이터와 유사한 데이터 생성

리파라미터화 트릭 (Reparameterization Trick)

VAE에서는 인코더가 예측한 분포에서 샘플링하는 과정이 필요합니다. 그러나 샘플링은 미분 불가능하여 역전파(backpropagation) 학습에 어려움이 있습니다. 이를 해결하기 위해 리파라미터화 트릭을 사용합니다.

z=μ+σϵ,ϵN(0,I)z = \mu + \sigma \odot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)

μ\muσ\sigma는 인코더가 예측한 평균과 표준편차이며, ϵ\epsilon은 표준 정규분포에서 샘플링한 잡음입니다. 이 방식은 샘플링의 무작위성을 분리하여, 네트워크가 미분 가능한 파라미터 μ\muσ\sigma를 통해 학습할 수 있도록 합니다.


손실 함수

VAE의 학습에는 두 가지 손실 함수가 결합됩니다.

재구성 손실 (Reconstruction Loss)

디코더가 생성한 출력과 원본 데이터 간의 차이를 최소화합니다. 이미지의 경우 평균제곱오차(MSE)나 이진 크로스 엔트로피(Binary Cross Entropy)를 사용합니다.

KL 발산 (Kullback-Leibler Divergence)

인코더가 예측한 잠재 분포가 사전 정의된 표준 정규분포 N(0,I)\mathcal{N}(0, I)와 유사하도록 규제합니다. 이 항이 작용함으로써 잠재 공간에서의 원활한 보간(interpolation)과 새로운 샘플 생성이 가능해집니다.

최종 손실 함수

L=Lreconstruction+βDKL(q(zx)p(z))\mathcal{L} = \mathcal{L}_{\text{reconstruction}} + \beta \, D_{\text{KL}}(q(z|x) \parallel p(z))

β\beta는 두 항의 중요도를 조절하는 하이퍼파라미터로, 이를 변형한 β\beta-VAE 등 다양한 응용 모델이 존재합니다.


활용 사례

VAE는 다양한 분야에서 활용됩니다.

  • 이미지 생성: 잠재 공간의 연속적인 구조를 활용하여 새로운 이미지 생성
  • 이미지 편집: 잠재 공간의 벡터 연산으로 표정, 조명 등 특정 속성 조절
  • 데이터 압축: 고차원 데이터를 저차원 잠재 공간에 매핑하여 표현 단순화
  • 이상치 탐지: 정상 데이터의 잠재 분포를 학습한 후, 복원 오류(reconstruction error)가 큰 데이터를 이상치로 판별
  • 데이터 보강: 잠재 공간 샘플링을 활용한 data augmentation, 강화 학습 환경의 상태(state) 표현 학습
  • 잠재 표현 학습: 데이터의 주요 특성을 압축하여 분류·클러스터링 등 다운스트림 작업에 유리한 특성 추출

한계 및 개선 방향

모호한 생성 결과: KL 발산 항의 규제가 지나치게 강하게 작용하면 세밀한 특징 포착이 어려워져 생성 샘플이 흐릿해질 수 있습니다.

모드 붕괴(Mode Collapse): 생성 모델에서 나타나는 모드 붕괴 현상이 VAE에서도 발생할 수 있습니다. 이를 개선하기 위해 β\beta-VAE, Wasserstein VAE 등 다양한 변형 모델들이 제안되고 있습니다.


결론

VAE는 단순한 오토인코더의 한계를 극복하기 위해 등장한 확률론적 생성 모델입니다. 인코더에서 확률 분포를 예측하고 리파라미터화 트릭을 통해 미분 가능한 학습을 가능하게 하며, 재구성 손실과 KL 발산의 균형을 맞추는 방식으로 학습됩니다. 이미지 생성, 데이터 압축, 이상치 탐지 등 다양한 분야에서 응용될 수 있는 만큼, VAE를 이해하는 것은 생성 모델 전반에 대한 이해도를 높이는 데 큰 도움이 됩니다.

관련 글

댓글

0 / 1000