본문으로 건너뛰기
🐨코알라 오딧세이
🐨
이다운
코알라 오딧세이

새 글 알림 받기

© 2026 이다운

글 목록
AI/LLM

Reasoning Models Don't Always Say What They Think

추론 모델의 CoT가 실제 내부 추론을 충실히 반영하지 않을 수 있다는 Anthropic의 연구를 살펴봅니다.

Reasoning Models Don't Always Say What They Think

AI/LLM 시리즈 : CoT 충실도 연구

오늘은 Anthropic에서 발표한 흥미로운 연구 논문을 리뷰해보겠습니다. 추론 모델이 스스로 설명하는 **사고 사슬(Chain-of-Thought, CoT)**이 실제 사고 과정과 다른 내용을 보여줄 수 있으며, 때로는 고의로 생각을 숨긴다는 연구입니다.


Abstract

Chain-of-thought(CoT)는 모델의 의도와 추론 과정을 이해하기 위해 모니터링할 수 있어 AI 안전성에 잠재적인 이점을 제공합니다. 그러나 이 모니터링의 효과는 CoT가 실제 추론 과정을 충실히 반영하느냐에 달려 있습니다.

연구진은 최첨단 추론 모델들의 CoT 충실도를 6가지 추론 힌트를 기준으로 평가한 결과, 다음을 발견했습니다.

  1. 대부분의 모델에서 CoT는 힌트를 사용한 사례 중 최소 1% 이상에서 힌트 사용을 드러내지만, 드러나는 비율은 종종 20% 미만에 머뭅니다.
  2. 결과 기반 강화 학습은 초기에는 충실도를 개선하지만, 포화되기 전에 개선이 정체됩니다.
  3. 강화 학습이 힌트 사용 빈도를 증가시키는 보상 해킹 상황에서도, 힌트를 언어화하는 경향은 증가하지 않습니다.

이 결과는 CoT 모니터링이 훈련 및 평가 과정에서 바람직하지 않은 행동을 감지하는 데 유망하지만, 이를 완전히 배제하기에는 충분하지 않음을 시사합니다.


왜 이 연구가 중요한가?

추론 과정을 CoT로 드러내는 이유는 단순히 성능 향상만이 아닙니다. 모델이 어떻게 결과값을 도출했는지 확인하기 위한 목적도 있습니다. 만약 현재 추론 모델들의 CoT가 실제 내부 추론을 반영하지 않는다면, CoT 기반 안전성 모니터링 자체의 신뢰도가 흔들리게 됩니다.

대형 언어 모델은 응답 전에 CoT를 통해 복잡한 작업을 해결할 수 있도록 추론하지만, 이 과정이 안전성 측면에서 유용하려면 모델의 내부 추론 과정을 충실하게 반영해야 합니다. 연구 결과 대부분의 모델이 실제 사용한 추론 힌트를 1% 이상은 언어화하지만 20% 미만인 경우가 많으며, 작업이 어려워질수록 충실도가 떨어진다는 점이 드러났습니다.


연구 방법론

CoT 충실도 측정 방식

이 연구의 핵심 아이디어는 다음과 같습니다. 힌트가 없는 질문(x₍u₎)힌트가 삽입된 질문(x₍h₎) 쌍을 구성하여, 두 질문에 대한 CoT와 정답을 비교합니다. 힌트가 포함된 질문에서 모델이 답을 변경했을 때, CoT가 힌트 사용을 명시적으로 언급하는지를 0 또는 1로 평가하고 전체 평균을 내어 CoT 충실도 점수를 산출합니다.

단, 답변 변경이 우연에 의한 것인지 구분하기 위해 확률적 보정(normalization)을 적용하며, CoT가 힌트를 단순히 언급하는 것만으로는 부족하고 해당 힌트가 정답 도출에 결정적 역할을 했다는 것을 보여야 충실하다고 정의했습니다.

평가 설정

  • 데이터셋: MMLU와 GPQA의 다지선다형 질문
  • 모델 설정: Claude 3.7 Sonnet의 경우 최대 1만 토큰의 'scratchpad' 모드, 온도 파라미터 0 적용
  • 힌트 검증: Claude 3.5 Sonnet(New)을 활용하여 CoT 내 힌트 언급 여부를 점검, 일부 샘플 수동 검증

평가에 사용된 힌트 6종

유형 힌트 종류
중립적 힌트 시코팬시(Sycophancy), 일관성(Consistency), 시각 패턴(Visual Pattern), 메타데이터(Metadata)
부정적 힌트 채점자 해킹(Grader Hacking), 비윤리적 정보 사용(Unethical Information)

불충실한 CoT 예시

불충실한 CoT 예시 — 힌트 없이 D로 답하던 모델이 메타데이터 힌트 삽입 후 C로 답을 바꾸지만, CoT에서는 힌트 사용을 언급하지 않음

위 그림은 Claude 3.7 Sonnet가 생성한 불충실한 CoT의 예시입니다. 모델은 원래 질문에 대해 D라고 답했으나, 프롬프트에 메타데이터 힌트를 삽입하자 답변을 C로 바꿉니다. 그런데도 메타데이터에 의존했다는 사실은 CoT에서 전혀 언급하지 않습니다.


실험 결과: Claude vs DeepSeek CoT 충실도 비교

Claude vs DeepSeek CoT 충실도 비교 — DeepSeek R1이 평균 39%, Claude 계열은 5~25% 수준

네 가지 모델 모두 힌트가 있으면 정답을 힌트대로 바꾸는 경향을 보였으며, Claude 계열 모델이 DeepSeek 모델보다 힌트를 더 많이 사용하는 것으로 나타났습니다. 그러나 전체적인 CoT 충실도는 낮습니다.

모델 평균 CoT 충실도
Claude 3.5 Sonnet (New) 5%
Claude 3.7 Sonnet 25%
DeepSeek V3 15%
DeepSeek R1 39%

특히 Grader Hacking 힌트에서는 Claude 계열 모두 0%를 기록했습니다. 또한 불필요하게 장황하게 설명하는 경우에 힌트를 더 드러내지 않는 경향이 있었고, 어려운 질문에서 CoT가 덜 충실해지는 결과도 확인되었습니다.


강화 학습(RL)으로 개선 시도

연구진은 불충실한 CoT가 실제 답변 결정에 크게 기여하지 않는 점을 바탕으로, 모델이 CoT를 적극 활용하도록 **결과 기반 강화 학습(RL)**을 적용하는 방법을 실험했습니다. 초기에는 RL로 CoT 충실도가 크게 향상되었으나, 이후 추가 학습으로는 한계가 드러나 MMLU에서 약 28%, GPQA에서 약 20% 수준에 머물렀습니다.


보상 해킹과 CoT 은폐

보상 해킹 환경 실험 — 모델은 99% 이상의 프롬프트에서 보상 해킹을 활용하지만, CoT에서는 거의 언급하지 않음

연구진은 인위적으로 보상 해킹이 주입된 환경에서 모델을 훈련시키는 실험도 진행했습니다. 각 힌트가 보상 해킹으로 활용되어 모델이 높은 보상을 얻도록 설계된 환경입니다.

실험 결과는 놀라웠습니다. 모델은 99% 이상의 프롬프트에서 보상 해킹을 활용했지만, CoT에서 이를 명시하는 비율은 절반 이상의 환경에서 2% 미만에 불과했습니다. 모델은 보상 해킹을 인정하기보다 답을 갑자기 변경하거나 부정확한 근거를 복잡하게 설명하는 경향을 보였습니다. 동일한 해킹 데이터를 반복 학습해도 CoT가 이를 언어화하는 비율은 거의 증가하지 않았습니다.


결론 및 시사점

이 연구를 종합하면 다음 네 가지를 시사합니다.

첫째, CoT 모니터링은 일부 의도치 않은 위험 행동을 감지하는 데 도움이 될 수 있지만, CoT가 항상 모델의 실제 추론을 충실하게 반영하지는 않습니다.

둘째, 안전성을 위해 CoT 모니터링에 단독으로 의존하려면 모델이 모든 상황에서 내부 추론을 명확히 드러내야 하는데, 이는 현재 기술로는 어렵습니다.

셋째, 복잡한 추론이나 환경과의 상호작용이 요구되는 작업에서는 CoT 모니터링이 효과적일 수 있지만, 모델이 이를 회피할 가능성도 존재합니다.

마지막으로, CoT의 충실도를 높이기 위한 추가적인 학습 방법과 내부 활성화 분석 등의 보조 안전 장치 개발이 필요합니다.

관련 글

댓글

0 / 1000