본문으로 건너뛰기
🐨코알라 오딧세이
🐨
이다운
코알라 오딧세이

새 글 알림 받기

© 2026 이다운

글 목록
AI/LLM/Transformers

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

고정된 문맥 길이 한계를 극복하고 장기 의존성 학습의 새로운 가능성을 연 Transformer-XL 논문을 살펴봅니다.

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer 시리즈(4) : Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

근 한 달 만에 돌아왔습니다. 원래 1주일에 한 포스트는 작성하자고 마음먹었었는데, 그동안 회사일이 바쁘기도 했고 비전일제로서 박사과정에 입학하게 되면서 야간 수업을 처음 적응하느라 시간이 조금 걸렸습니다.

이번 시리즈 4번째 논문으로 Transformer-XL을 선택한 이유는, 기존 트랜스포머 모델이 가진 고정된 문맥 길이 제한 문제를 효과적으로 해결하면서 긴 문맥을 다루는 언어 모델링의 새로운 가능성을 열었다는 점에서 중요한 의미를 갖기 때문입니다.


논문의 핵심 주장

논문의 Abstract를 요약하면 다음과 같습니다.

기존 트랜스포머는 고정된 문맥 길이로 인해 장기 의존성을 학습하는 데 한계가 있었습니다. Transformer-XL은 세그먼트 단위의 재발(recurrence) 메커니즘새로운 상대적 위치 인코딩 방식을 도입하여 이 문제를 극복합니다. 그 결과 RNN보다 80%, 기존 트랜스포머보다 450% 긴 의존성을 효과적으로 학습하며, 평가 시 최대 1,800배 빠른 속도를 달성했습니다. enwiki8, text8, WikiText-103, One Billion Word, Penn Treebank 등 다양한 데이터셋에서 최첨단 bpc/perplexity 성능을 기록하였으며, WikiText-103만으로도 수천 토큰에 달하는 일관된 텍스트를 생성할 수 있습니다.


기존 모델의 한계: 문맥 단편화 문제

기존 트랜스포머는 평균 약 200 단어 정도를 문맥으로 활용합니다. 긴 문서를 학습할 때는 텍스트를 일정 길이로 잘라 처리해야 하는데, 이 과정에서 세그먼트 간의 자연스러운 연결이 끊겨 이전 문맥의 중요한 정보가 전달되지 않습니다. 특히 세그먼트 경계에 위치한 단어나 구절을 예측할 때 충분한 문맥 정보를 활용하지 못해 장기 의존성 학습에 한계가 생깁니다.

이 논문에서는 이를 문맥 단편화(context fragmentation) 문제라고 표현합니다. 문장이나 의미 단위와 무관하게 텍스트가 잘려 필요한 정보가 누락되는 현상입니다.


핵심 아이디어

1. 세그먼트 단위 재발 메커니즘 (Segment-Level Recurrence)

Transformer-XL은 긴 텍스트를 일정 길이의 세그먼트로 나눠 처리하되, 이전 세그먼트에서 계산된 은닉 상태 전체를 메모리처럼 저장해둡니다. 새로운 세그먼트를 처리할 때 이 저장된 은닉 상태를 입력과 함께 결합하여, 모델이 이전 세그먼트의 정보까지 활용할 수 있도록 합니다.

이 방식은 일종의 '재발(recurrence)'을 도입한 것으로, 여러 세그먼트에 걸친 장기 의존성을 학습할 수 있게 해줍니다. 또한 평가 단계에서는 이미 계산된 이전 세그먼트의 은닉 상태를 재사용하기 때문에, 매번 전체 구간을 처음부터 다시 처리하지 않아도 되어 계산 속도가 크게 향상됩니다.

2. 상대적 위치 인코딩 (Relative Positional Encoding)

일반적인 트랜스포머는 각 토큰에 절대적인 위치 정보를 부여하는 사인-코사인 방식의 절대 위치 인코딩을 사용합니다. 그러나 세그먼트 단위 재발 메커니즘을 도입하면, 서로 다른 세그먼트에서 온 은닉 상태들을 결합할 때 위치 정보가 충돌하는 문제가 발생합니다. 이전 세그먼트와 현재 세그먼트에 동일한 '위치 번호'가 존재하게 되어, 모델이 두 세그먼트에 걸친 토큰들의 순서를 올바르게 구분하지 못하게 됩니다.

이를 해결하기 위해 Transformer-XL은 토큰의 절대적 위치 대신 토큰 간의 상대적인 거리를 인코딩합니다. 두 토큰이 서로 몇 번째 차이에 있는지를 계산하여 그 정보를 주입함으로써, 캐시된 은닉 상태를 재사용할 때도 올바른 문맥 정보와 순서가 유지되도록 합니다.


두 메커니즘의 시너지

Transformer-XL은 이 두 가지 기술을 결합하여 고정된 문맥 길이로 인한 한계를 극복합니다.

  • 세그먼트 단위 재발 → 이전 세그먼트 정보를 이어받아 장기 의존성 학습 가능
  • 상대적 위치 인코딩 → 재사용된 은닉 상태 간의 위치 혼란 방지

결과적으로 긴 텍스트에서도 효과적으로 장기 의존성을 학습하고, 평가 시에도 계산 효율성을 크게 향상시킵니다.


실험 결과

Transformer-XL은 다양한 데이터셋에서 낮은 perplexity 수치를 기록하며 우수한 성능을 입증했습니다.

데이터셋 bpc/perplexity
enwiki8 0.99
text8 1.08
WikiText-103 18.3
One Billion Word 21.8
Penn Treebank (fine-tuning 없이) 54.5

또한 기존 모델 대비 의존성 학습 범위와 속도 측면에서 월등한 성능을 보였습니다.

  • RNN 대비 80% 더 긴 의존성 학습
  • 기존 트랜스포머 대비 450% 더 긴 의존성 학습
  • 평가 시 기존 트랜스포머 대비 최대 1,800배 빠른 속도

Transformer-XL의 의의

Transformer-XL이 보여준 성과는 텍스트 생성, 비지도 특징 학습, 이미지 및 음성 모델링 등 다양한 분야에서 혁신적인 응용 가능성을 열어줍니다.

  1. 장기 의존성 학습 — 세그먼트 재발 메커니즘으로 기존 모델이 처리하지 못했던 긴 범위의 문맥을 효과적으로 모델링
  2. 문맥 단편화 해결 — 세그먼트 경계에서 발생하던 정보 손실 문제를 근본적으로 극복
  3. 계산 효율성 — 캐시된 은닉 상태 재사용으로 평가 단계에서 획기적인 속도 향상 달성

결론: 기억을 가진 트랜스포머

Transformer-XL은 트랜스포머가 가진 고질적인 한계를 창의적인 방법으로 돌파한 논문입니다. 이전 세그먼트의 기억을 이어받고, 위치 정보를 상대적으로 인코딩하는 이 두 가지 아이디어는 이후 XLNet 등 다양한 후속 연구에 직접적인 영향을 미쳤습니다. 긴 문맥을 얼마나 잘 이해하느냐가 언어 모델의 핵심 경쟁력이 된 지금, Transformer-XL의 기여는 더욱 빛을 발합니다.

관련 글

댓글

0 / 1000