[3,4주차] 비지도학습방법론 - EM 알고리즘
대학원 수업 / 비지도학습방법론
비지도 학습 방법론 수업의 3, 4주차 주제인 EM 알고리즘에 대해 미리 공부한 내용을 정리해 보겠습니다.
EM 알고리즘이란?
**EM 알고리즘(Expectation-Maximization Algorithm)**은 잠재 변수(숨겨진 변수)나 불완전한 데이터를 다루는 통계적 추정 문제에서 널리 사용되는 반복 최적화 기법입니다. 관측 데이터만 가지고도 모델 파라미터의 **최대 우도 추정치(MLE)**를 찾는 것이 주요 목적입니다.
1. 기본 개념
목적: 직접 관측할 수 없는 잠재 변수(예: 군집 소속 여부, 결측치 등)를 포함하는 모델에서 파라미터를 추정합니다.
문제 상황: 완전 데이터(관측 데이터 + 잠재 변수)가 주어졌다면 MLE를 쉽게 구할 수 있지만, 잠재 변수가 관측되지 않아 직접 최적화가 어려운 경우에 EM 알고리즘이 유용합니다.
2. 두 가지 핵심 단계
E-Step (Expectation Step)
현재의 파라미터 추정치를 바탕으로 잠재 변수의 조건부 확률 분포(기대값)를 계산합니다. 주어진 관측 데이터와 현재 파라미터를 사용하여 잠재 변수의 분포를 추정하고, 완전 데이터의 로그 우도 함수의 기댓값 를 구합니다.
M-Step (Maximization Step)
E-Step에서 계산된 기대값을 이용하여 파라미터를 갱신합니다. 함수를 최대화하는 파라미터 를 찾아 새로운 추정치 를 결정합니다.
3. 반복 과정
EM 알고리즘은 다음 순환 과정을 수렴할 때까지 반복합니다.
- 초기화: 파라미터 의 초기값을 설정합니다.
- E-Step: 현재 파라미터 를 이용해 잠재 변수의 조건부 분포와 기대값을 계산합니다.
- M-Step: E-Step 결과를 활용하여 를 최대화하는 새로운 파라미터 를 구합니다.
- 수렴 조건 검사: 파라미터 변화가 미미하거나 로그 우도 값이 더 이상 크게 증가하지 않으면 종료합니다.
매 반복마다 로그 우도 함수의 값은 감소하지 않으며, 수렴 시 로컬 최대치에 도달하게 됩니다.
4. 수학적 배경 및 Q 함수
잠재 변수 도 관측 가능하다면 를 직접 최대화하면 됩니다. 그러나 가 관측되지 않으므로, 잠재 변수에 대한 조건부 기댓값을 취한 Q 함수를 정의합니다.
M-Step에서는 이 Q 함수를 최대화하는 를 찾습니다.
5. 적용 예제: 혼합 가우시안 모델 (GMM)
EM 알고리즘의 가장 대표적인 적용 사례는 **Gaussian Mixture Model(GMM)**입니다.
상황: 데이터가 여러 가우시안 분포의 혼합으로 생성되었으나, 각 데이터 포인트가 어떤 가우시안에서 왔는지는 알 수 없는 경우.
E-Step: 각 데이터 포인트가 각 가우시안 분포에서 생성되었을 확률(군집 소속 확률)을 계산합니다.
M-Step: 계산된 확률을 바탕으로 각 가우시안의 평균, 분산, 혼합 계수를 업데이트합니다.
반복 과정을 통해 모델의 파라미터가 점차 정확해지며, 데이터의 분포를 효과적으로 설명하게 됩니다.
6. 장단점
장점
- 범용성: 클러스터링, 밀도 추정, 이미지 복원, 음성 인식 등 다양한 잠재 변수 모델에 폭넓게 적용 가능합니다.
- 이론적 보장: 각 반복에서 로그 우도 함수가 감소하지 않으므로 수렴에 대한 이론적 보장이 있습니다.
단점
- 초기값 민감성: 파라미터 초기값에 따라 로컬 최적해에 빠질 위험이 있으며, 여러 번 실행이 필요할 수 있습니다.
- 수렴 속도: 경우에 따라 수렴 속도가 느리고, 복잡한 모델에서는 계산 비용이 증가할 수 있습니다.
결론
EM 알고리즘은 불완전하거나 잠재 변수가 포함된 데이터에서 최대 우도 추정을 효과적으로 수행할 수 있는 강력한 도구입니다. 직관적인 구조 덕분에 통계학, 머신러닝, 신호 처리 등 여러 분야에서 광범위하게 사용됩니다. 다만 초기값 설정과 로컬 최적해 문제 등 한계도 존재하므로, 이를 보완하기 위한 다양한 기법들이 함께 연구되고 있습니다.