LLM도 '브레인 롯(Brain Rot)'에 걸릴 수 있을까?
AI/LLM 시리즈 : LLM 브레인 롯 논문 리뷰
얼마 전 세상을 떠들썩하게 하던 밈이 있었습니다. 바로 '브레인 롯(Brain Rot)' 밈인데요. 직역하자면 뇌가 썩는다는 뜻입니다. 2024년 옥스퍼드에서 '브레인 롯'을 올해의 단어로 선정했는데, 이는 소셜 미디어의 짧고 자극적인 콘텐츠를 과도하게 소비할 때 발생하는 인지 능력 저하를 의미합니다.
흥미롭게도 대규모 언어 모델(LLM)도 인간과 같은 인터넷 데이터로 학습합니다. 그렇다면 LLM도 브레인 롯에 걸릴 수 있을까요? 이에 대한 답을 "LLMS CAN GET 'BRAIN ROT'!" (2025, Shuo Xing et al.) 논문에서 텍사스 대학교 오스틴 캠퍼스와 텍사스 A&M 대학교의 연구팀이 연구했습니다.
LLM 브레인 롯 가설
연구팀은 'LLM 브레인 롯 가설' 을 제안했습니다. 저품질의 웹 텍스트(정크 데이터)에 지속적으로 노출되면 LLM의 인지 능력이 장기적으로 저하된다는 가설입니다.
정크 데이터의 정의
연구팀은 정크 데이터를 두 가지 방식으로 정의했습니다.
| 방식 | 정크 데이터 기준 | 대조군 기준 |
|---|---|---|
| M1 (참여도 기반) | 30토큰 미만 + 좋아요/리트윗 500개 이상 | 100토큰 이상 + 좋아요/리트윗 500개 이하 |
| M2 (의미적 품질 기반) | 음모론, 과장된 주장, 클릭베이트, 피상적 라이프스타일 콘텐츠 | GPT-4o-mini로 자동 분류 (인간 선호도와 76% 일치) |
흥미롭게도 인기도와 길이는 서로 큰 상관관계가 없었습니다. 이는 M1이 의미적 요소와 비의미적 요소를 모두 포착하는 독립적인 차원임을 시사합니다.
실험 설계
연구팀은 100만 개의 트위터 게시물에서 정크 데이터와 대조군 데이터를 추출하고, 4개의 LLM(Llama3 8B, Qwen2.5 7B/0.5B, Qwen3 4B)에 대해 다음 과정을 진행했습니다.
- 정크 데이터로 지속적 사전학습(Continual Pre-training)
- 표준 지시문 튜닝(Instruction Tuning)
- 다양한 벤치마크로 성능 평가
충격적인 결과
추론 능력 저하
ARC-Challenge 점수가 74.9 → 57.2로 대폭 하락했습니다(100% 정크 데이터, M1 방식). 정크 데이터 비율이 증가할수록 점진적 성능 저하가 관찰되었습니다.
장문맥 이해력 급감
RULER-CWE 점수가 84.4 → 52.3으로 급락했으며, 특히 변수 추적과 다중 키워드 찾기 작업에서 심각한 성능 저하가 발생했습니다.
안전성 문제
유해한 지시를 따를 위험성이 증가하여 AdvBench 위험 점수가 61.4 → 88.8로 상승했습니다.
성격 변화
M1 정크 데이터 노출 후 놀라운 성격 변화가 관찰되었습니다.
| 특성 | 변화 전 | 변화 후 |
|---|---|---|
| 자기애 | 18.9 | 47.0 |
| 사이코패시 | 33.5 | 75.7 |
| 친화성 | 높음 | 저하 |
M2 방식은 상대적으로 약한 영향을 보였습니다.
실패 원인 분석: '사고 생략'
연구팀은 ARC 벤치마크의 추론 과정을 분석하여 5가지 실패 유형을 발견했습니다.
| 유형 | 설명 | 비율 |
|---|---|---|
| 사고 없음 | 생각 없이 바로 답변 | 84% (가장 빈번) |
| 계획 없음 | 단계별 분해 없이 추론 | — |
| 단계 생략 | 계획한 단계를 완료하지 않음 | — |
| 논리 오류 | 잘못된 논리적 추론 | — |
| 사실 오류 | 주제에 대한 부정확한 주장 | — |
정크 데이터는 짧고 단편적이며 주목을 끌기 위해 설계되었기 때문에, 모델이 간단히 답변하고 사고 과정을 생략하도록 학습됩니다.
회복 가능성: 제한적
반성적 추론(Reflective Reasoning)
자체 반성만으로는 불충분하며, GPT-4o-mini 같은 외부 모델의 피드백으로는 어느 정도 개선되지만 근본적 인지 저하는 해결할 수 없었습니다.
사후 튜닝
대규모 지시문 튜닝(5k → 50k 샘플)과 깨끗한 데이터로 추가 사전학습을 시도했지만, 정크 데이터의 4.8배 토큰을 투입해도 완전한 회복은 불가능했습니다.
| 평가 지표 | 베이스라인과의 격차 |
|---|---|
| ARC | 17.3% |
| RULER | 9.0% |
| AdvBench | 17.4% |
핵심 인사이트
인기도가 추론 능력에 더 큰 영향을 미치며, 길이는 장문맥 이해에 더 결정적인 역할을 합니다. 인기도는 의미적 품질과 독립적인 새로운 차원으로 작용합니다.
M1(참여도 기반)은 기능적 인지, 안전성, 성격에 더 심각한 영향을 미치는 반면 M2(의미적 품질 기반)는 상대적으로 약한 영향을 보였습니다. 그러나 두 방식 모두 추론과 장문맥 이해에는 큰 영향을 미쳤습니다.
시사점
이 연구는 AI 안전성에 대한 중요한 경고입니다.
첫째, 사전학습 데이터 품질이 모델 능력의 인과적 동인이라는 점에서 데이터 큐레이션의 중요성이 커집니다.
둘째, 데이터 품질은 추론 시점이 아닌 훈련 시점의 안전 문제로 다루어야 합니다.
셋째, 배포된 LLM에 대한 정기적 인지 건강 검진과 지속적 모니터링이 필요합니다.
마지막으로, 인터넷에서 계속 학습하는 모델은 브레인 롯에 노출될 위험이 더 크므로 지속적 학습의 위험성을 인식해야 합니다.
결론
LLM도 인간처럼 저품질 콘텐츠에 노출되면 '브레인 롯'에 걸릴 수 있습니다. 더 우려스러운 점은 이러한 손상이 지속적이며 대규모 사후 튜닝으로도 완전히 회복할 수 없다는 것입니다.
LLM이 점점 더 커지고 더 많은 웹 데이터를 소비하는 현재, 신중한 데이터 큐레이션과 품질 관리가 필수적입니다. 소셜 미디어가 인간의 인지에 미치는 영향을 우려하는 것처럼, AI의 '식단'도 신중하게 관리해야 할 때입니다.