수업/머신러닝

[3,4주차] 비지도학습방법론 - EM 알고리즘

박사과정 비지도학습방법론 수업 3,4주차 — EM 알고리즘의 원리, 수학적 배경, GMM 적용 예제 정리

2025년 3월 29일

[3,4주차] 비지도학습방법론 - EM 알고리즘

대학원 수업 / 비지도학습방법론

비지도 학습 방법론 수업의 3, 4주차 주제인 EM 알고리즘에 대해 미리 공부한 내용을 정리해 보겠습니다.

EM 알고리즘이란?

**EM 알고리즘(Expectation-Maximization Algorithm)**은 잠재 변수(숨겨진 변수)나 불완전한 데이터를 다루는 통계적 추정 문제에서 널리 사용되는 반복 최적화 기법입니다. 관측 데이터만 가지고도 모델 파라미터의 **최대 우도 추정치(MLE)**를 찾는 것이 주요 목적입니다.

1. 기본 개념

목적: 직접 관측할 수 없는 잠재 변수(예: 군집 소속 여부, 결측치 등)를 포함하는 모델에서 파라미터를 추정합니다.

문제 상황: 완전 데이터(관측 데이터 + 잠재 변수)가 주어졌다면 MLE를 쉽게 구할 수 있지만, 잠재 변수가 관측되지 않아 직접 최적화가 어려운 경우에 EM 알고리즘이 유용합니다.

2. 두 가지 핵심 단계

E-Step (Expectation Step)

현재의 파라미터 추정치를 바탕으로 잠재 변수의 조건부 확률 분포(기대값)를 계산합니다. 주어진 관측 데이터와 현재 파라미터를 사용하여 잠재 변수의 분포를 추정하고, 완전 데이터의 로그 우도 함수의 기댓값 $Q(\theta|\theta^{(t)})$ 를 구합니다.

M-Step (Maximization Step)

E-Step에서 계산된 기대값을 이용하여 파라미터를 갱신합니다. $Q(\theta|\theta^{(t)})$ 함수를 최대화하는 파라미터 $\theta$ 를 찾아 새로운 추정치 $\theta^{(t+1)}$ 를 결정합니다.

3. 반복 과정

EM 알고리즘은 다음 순환 과정을 수렴할 때까지 반복합니다.

초기화: 파라미터 $\theta$ 의 초기값을 설정합니다.
E-Step: 현재 파라미터 $\theta^{(t)}$ 를 이용해 잠재 변수의 조건부 분포와 기대값을 계산합니다.
M-Step: E-Step 결과를 활용하여 $Q(\theta|\theta^{(t)})$ 를 최대화하는 새로운 파라미터 $\theta^{(t+1)}$ 를 구합니다.
수렴 조건 검사: 파라미터 변화가 미미하거나 로그 우도 값이 더 이상 크게 증가하지 않으면 종료합니다.

매 반복마다 로그 우도 함수의 값은 감소하지 않으며, 수렴 시 로컬 최대치에 도달하게 됩니다.

4. 수학적 배경 및 Q 함수

잠재 변수 $Z$ 도 관측 가능하다면 $\log p(X, Z|\theta)$ 를 직접 최대화하면 됩니다. 그러나 $Z$ 가 관측되지 않으므로, 잠재 변수에 대한 조건부 기댓값을 취한 Q 함수를 정의합니다.

$Q(\theta|\theta^{(t)}) = E_{Z|X,\theta^{(t)}}[\log p(X,Z|\theta)]$

M-Step에서는 이 Q 함수를 최대화하는 $\theta$ 를 찾습니다.

5. 적용 예제: 혼합 가우시안 모델 (GMM)

EM 알고리즘의 가장 대표적인 적용 사례는 **Gaussian Mixture Model(GMM)**입니다.

상황: 데이터가 여러 가우시안 분포의 혼합으로 생성되었으나, 각 데이터 포인트가 어떤 가우시안에서 왔는지는 알 수 없는 경우.

E-Step: 각 데이터 포인트가 각 가우시안 분포에서 생성되었을 확률(군집 소속 확률)을 계산합니다.

M-Step: 계산된 확률을 바탕으로 각 가우시안의 평균, 분산, 혼합 계수를 업데이트합니다.

반복 과정을 통해 모델의 파라미터가 점차 정확해지며, 데이터의 분포를 효과적으로 설명하게 됩니다.

6. 장단점

장점

범용성: 클러스터링, 밀도 추정, 이미지 복원, 음성 인식 등 다양한 잠재 변수 모델에 폭넓게 적용 가능합니다.
이론적 보장: 각 반복에서 로그 우도 함수가 감소하지 않으므로 수렴에 대한 이론적 보장이 있습니다.

단점

초기값 민감성: 파라미터 초기값에 따라 로컬 최적해에 빠질 위험이 있으며, 여러 번 실행이 필요할 수 있습니다.
수렴 속도: 경우에 따라 수렴 속도가 느리고, 복잡한 모델에서는 계산 비용이 증가할 수 있습니다.

결론

EM 알고리즘은 불완전하거나 잠재 변수가 포함된 데이터에서 최대 우도 추정을 효과적으로 수행할 수 있는 강력한 도구입니다. 직관적인 구조 덕분에 통계학, 머신러닝, 신호 처리 등 여러 분야에서 광범위하게 사용됩니다. 다만 초기값 설정과 로컬 최적해 문제 등 한계도 존재하므로, 이를 보완하기 위한 다양한 기법들이 함께 연구되고 있습니다.

[3,4주차] 비지도학습방법론 - EM 알고리즘

대학원 수업 / 비지도학습방법론

비지도 학습 방법론 수업의 3, 4주차 주제인 EM 알고리즘에 대해 미리 공부한 내용을 정리해 보겠습니다.

EM 알고리즘이란?

1. 기본 개념

목적: 직접 관측할 수 없는 잠재 변수(예: 군집 소속 여부, 결측치 등)를 포함하는 모델에서 파라미터를 추정합니다.

2. 두 가지 핵심 단계

E-Step (Expectation Step)

M-Step (Maximization Step)

3. 반복 과정

EM 알고리즘은 다음 순환 과정을 수렴할 때까지 반복합니다.

초기화: 파라미터 $\theta$ 의 초기값을 설정합니다.
E-Step: 현재 파라미터 $\theta^{(t)}$ 를 이용해 잠재 변수의 조건부 분포와 기대값을 계산합니다.
M-Step: E-Step 결과를 활용하여 $Q(\theta|\theta^{(t)})$ 를 최대화하는 새로운 파라미터 $\theta^{(t+1)}$ 를 구합니다.
수렴 조건 검사: 파라미터 변화가 미미하거나 로그 우도 값이 더 이상 크게 증가하지 않으면 종료합니다.

매 반복마다 로그 우도 함수의 값은 감소하지 않으며, 수렴 시 로컬 최대치에 도달하게 됩니다.

4. 수학적 배경 및 Q 함수

$Q(\theta|\theta^{(t)}) = E_{Z|X,\theta^{(t)}}[\log p(X,Z|\theta)]$

M-Step에서는 이 Q 함수를 최대화하는 $\theta$ 를 찾습니다.

5. 적용 예제: 혼합 가우시안 모델 (GMM)

EM 알고리즘의 가장 대표적인 적용 사례는 **Gaussian Mixture Model(GMM)**입니다.

상황: 데이터가 여러 가우시안 분포의 혼합으로 생성되었으나, 각 데이터 포인트가 어떤 가우시안에서 왔는지는 알 수 없는 경우.

E-Step: 각 데이터 포인트가 각 가우시안 분포에서 생성되었을 확률(군집 소속 확률)을 계산합니다.

M-Step: 계산된 확률을 바탕으로 각 가우시안의 평균, 분산, 혼합 계수를 업데이트합니다.

반복 과정을 통해 모델의 파라미터가 점차 정확해지며, 데이터의 분포를 효과적으로 설명하게 됩니다.

6. 장단점

장점

범용성: 클러스터링, 밀도 추정, 이미지 복원, 음성 인식 등 다양한 잠재 변수 모델에 폭넓게 적용 가능합니다.
이론적 보장: 각 반복에서 로그 우도 함수가 감소하지 않으므로 수렴에 대한 이론적 보장이 있습니다.

단점

초기값 민감성: 파라미터 초기값에 따라 로컬 최적해에 빠질 위험이 있으며, 여러 번 실행이 필요할 수 있습니다.
수렴 속도: 경우에 따라 수렴 속도가 느리고, 복잡한 모델에서는 계산 비용이 증가할 수 있습니다.

결론

이전 글[4주차] API Gateway📚 수업

다음 글MCP 업데이트 : OAuth 2.1, 스트리머블 HTTP, 도구 주석🤖 AI

[3,4주차] 비지도학습방법론 - EM 알고리즘

대학원 수업 / 비지도학습방법론

비지도 학습 방법론 수업의 3, 4주차 주제인 EM 알고리즘에 대해 미리 공부한 내용을 정리해 보겠습니다.

EM 알고리즘이란?

1. 기본 개념

목적: 직접 관측할 수 없는 잠재 변수(예: 군집 소속 여부, 결측치 등)를 포함하는 모델에서 파라미터를 추정합니다.

2. 두 가지 핵심 단계

E-Step (Expectation Step)

M-Step (Maximization Step)

3. 반복 과정

EM 알고리즘은 다음 순환 과정을 수렴할 때까지 반복합니다.

초기화: 파라미터 $\theta$ 의 초기값을 설정합니다.
E-Step: 현재 파라미터 $\theta^{(t)}$ 를 이용해 잠재 변수의 조건부 분포와 기대값을 계산합니다.
M-Step: E-Step 결과를 활용하여 $Q(\theta|\theta^{(t)})$ 를 최대화하는 새로운 파라미터 $\theta^{(t+1)}$ 를 구합니다.
수렴 조건 검사: 파라미터 변화가 미미하거나 로그 우도 값이 더 이상 크게 증가하지 않으면 종료합니다.

매 반복마다 로그 우도 함수의 값은 감소하지 않으며, 수렴 시 로컬 최대치에 도달하게 됩니다.

4. 수학적 배경 및 Q 함수

$Q(\theta|\theta^{(t)}) = E_{Z|X,\theta^{(t)}}[\log p(X,Z|\theta)]$

M-Step에서는 이 Q 함수를 최대화하는 $\theta$ 를 찾습니다.

5. 적용 예제: 혼합 가우시안 모델 (GMM)

EM 알고리즘의 가장 대표적인 적용 사례는 **Gaussian Mixture Model(GMM)**입니다.

상황: 데이터가 여러 가우시안 분포의 혼합으로 생성되었으나, 각 데이터 포인트가 어떤 가우시안에서 왔는지는 알 수 없는 경우.

E-Step: 각 데이터 포인트가 각 가우시안 분포에서 생성되었을 확률(군집 소속 확률)을 계산합니다.

M-Step: 계산된 확률을 바탕으로 각 가우시안의 평균, 분산, 혼합 계수를 업데이트합니다.

반복 과정을 통해 모델의 파라미터가 점차 정확해지며, 데이터의 분포를 효과적으로 설명하게 됩니다.

6. 장단점

장점

범용성: 클러스터링, 밀도 추정, 이미지 복원, 음성 인식 등 다양한 잠재 변수 모델에 폭넓게 적용 가능합니다.
이론적 보장: 각 반복에서 로그 우도 함수가 감소하지 않으므로 수렴에 대한 이론적 보장이 있습니다.

단점

초기값 민감성: 파라미터 초기값에 따라 로컬 최적해에 빠질 위험이 있으며, 여러 번 실행이 필요할 수 있습니다.
수렴 속도: 경우에 따라 수렴 속도가 느리고, 복잡한 모델에서는 계산 비용이 증가할 수 있습니다.

[3,4주차] 비지도학습방법론 - EM 알고리즘

[3,4주차] 비지도학습방법론 - EM 알고리즘

EM 알고리즘이란?

1. 기본 개념

2. 두 가지 핵심 단계

E-Step (Expectation Step)

M-Step (Maximization Step)

3. 반복 과정

4. 수학적 배경 및 Q 함수

5. 적용 예제: 혼합 가우시안 모델 (GMM)

6. 장단점

결론

[3,4주차] 비지도학습방법론 - EM 알고리즘

EM 알고리즘이란?

1. 기본 개념

2. 두 가지 핵심 단계

E-Step (Expectation Step)

M-Step (Maximization Step)

3. 반복 과정

4. 수학적 배경 및 Q 함수

5. 적용 예제: 혼합 가우시안 모델 (GMM)

6. 장단점

결론

관련 글

댓글

[3,4주차] 비지도학습방법론 - EM 알고리즘

EM 알고리즘이란?

1. 기본 개념

2. 두 가지 핵심 단계

E-Step (Expectation Step)

M-Step (Maximization Step)

3. 반복 과정

4. 수학적 배경 및 Q 함수

5. 적용 예제: 혼합 가우시안 모델 (GMM)

6. 장단점

결론