LLM 추론 능력: 핵심 메커니즘, 심층 탐구 및 과제

LLM의 추론 능력은 복잡한 문제를 중간 단계로 분해하여 해결하는 과정에서 발현되며, 특히 Chain of Thought(CoT) 및 Tree of Thoughts(ToT)와 같은 프롬프트 기법을 통해 크게 향상됩니다. CoT는 선형적인 사고 과정을, ToT는 탐색 및 평가 기반의 트리 구조 사고를 가능하게 하여 모델의 문제 해결 능력을 확장합니다. 그러나 LLM은 환각, 새로운 지식 발견의 한계, 그리고 추론 과정의 비투명성이라는 미해결 과제에 직면해 있으며, 외부 지식 연동 및 설명 가능한 AI 연구를 통해 이를 극복하려는 노력이 진행 중입니다.

핵심 원리

거대 언어 모델(LLM)의 추론 능력은 복잡한 문제를 단일 단계로 해결하기보다, 일련의 중간 단계를 거쳐 해결하는 과정에서 발현됩니다. LLM은 본질적으로 다음 토큰을 예측하는 방식으로 작동하지만, 특정 프롬프트 구조가 주어졌을 때 이 예측 과정을 단순한 텍스트 완성 이상으로 활용하여 논리적 사고 과정을 모방할 수 있습니다. 이는 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제들로 분해하고, 각 하위 문제의 해답을 통합하여 최종 결론에 도달하는 방식입니다.

이 추론 메커니즘은 다음과 같은 인과 관계를 따릅니다:

복잡한 문제 입력: LLM에 산술, 논리, 상식 추론 등 다단계 해결을 요구하는 문제가 주어집니다.
추론 프롬프트: 모델은 명시적인 중간 사고 과정(예: Chain of Thought)을 포함하는 예시를 인컨텍스트 학습 방식으로 제공받거나, 자체적으로 중간 단계를 생성하도록 유도하는 프롬프트 지시를 받습니다. 이는 모델의 조건부 확률 분포 $P(X_{answer} | X_{problem})$ 를 $P(X_{answer} | X_{problem}, X_{thought})$ 로 실질적으로 변화시킵니다.
단계적 토큰 생성: 모델은 이전 토큰과 프롬프트에 기반하여 다음 토큰을 순차적으로 생성합니다. 이때 추론 프롬프트는 모델이 문제 해결을 위한 내부 '사고' 단계를 외부화하는 토큰 시퀀스를 생성하도록 유도합니다. 예를 들어, 문제 $X$와 중간 사고 $C_1, C_2, ..., C_k$ 그리고 최종 답변 $Y$로 구성된 전체 시퀀스 $(X, C_1, ..., C_k, Y)$ 를 생성하는 것이 목표가 됩니다. 이는 $prod_{i=1}^k P(C_i | X, C_{<i}) cdot P(Y | X, C_{le k})$ 와 같은 확률을 최대화하는 과정으로 볼 수 있습니다. 여기서 $P(C_i | ...)$ 는 중간 추론 단계의 생성 확률을, $P(Y | ...)$는 최종 답변의 생성 확률을 나타냅니다.
오류 감소 및 정확도 향상: 각 중간 단계에서 모델은 문제를 재평가하고, 이전에 생성된 정보를 바탕으로 다음 단계를 계획합니다. 이 과정은 잠재적인 오류를 초기에 발견하고 수정할 기회를 제공하며, 최종 답변의 정확도를 크게 향상시킵니다.

LLM의 텍스트 생성은 각 시점 $t$에서 이전 토큰 시퀀스 $x_{<t}$ 에 기반하여 다음 토큰 $x_t$ 의 확률 분포를 예측하는 것입니다: $P(x_t | x_{<t})$ . 추론은 이 조건부 확률 예측을 활용하여 긴 시퀀스 $X_{reasoning} = (x_{problem}, x_{thought_1}, ..., x_{thought_k}, x_{answer})$ 를 생성하는 최적화 문제입니다. 명시적인 추론 단계가 주어지지 않은 경우, 모델은 $P(x_{answer} | x_{problem})$ 를 직접 추정해야 하지만, 추론 단계가 포함된 프롬프트가 주어지면 모델은 $P(x_{answer} | x_{problem}, x_{thought_1}, ..., x_{thought_k})$ 를 예측하게 됩니다. 이 방식은 복잡한 하나의 조건부 확률을 여러 개의 단순한 조건부 확률로 분해하여 모델의 부담을 줄입니다.

이러한 추론 능력은 모델의 크기에 따라 다르게 나타납니다. 일반적으로 수십억 개 미만의 파라미터를 가진 소규모 LLM에서는 CoT(Chain of Thought)와 같은 추론 유도 프롬프트가 큰 효과를 보이지 않거나 전혀 효과가 없는 경우가 많습니다. 반면, 60B(600억)개 이상의 파라미터를 가진 대규모 모델에서는 CoT 프롬프트가 단답형 답변 대비 20~50%p 이상의 성능 향상을 가져오기도 합니다. 이는 추론 능력이 모델의 특정 규모 이상에서 발현되는 '새롭게 나타나는 능력'(emergent ability) 중 하나임을 시사합니다.

직관적인 비유로, 복잡한 수학 문제를 풀 때 단순히 최종 답만 적는 것(직접 추론)과, 풀이 과정을 단계별로 상세히 적어 내려가는 것(추론)의 차이와 유사합니다. 풀이 과정을 적는 것은 중간에 잘못된 부분이 없는지 확인하고, 논리적인 흐름을 유지하며 최종 답에 도달하는 데 도움을 줍니다. LLM의 추론도 이와 같이 문제 해결 과정을 외부화하여 모델이 더 견고하고 정확한 답을 찾도록 돕습니다.

{"direction":"TB","nodes":[{"id":"1","label":"복잡한 문제 (입력)"},{"id":"2","label":"프롬프트 엔지니어링 (CoT 예시)"},{"id":"3","label":"LLM 토큰 생성 (단계적 사고)"},{"id":"4","label":"중간 추론 단계 ($\\sum P(C_i|X,C_{<i})$)"},{"id":"5","label":"최종 답변 생성 ($P(Y|X,C_{\le k})$)"}],"edges":[{"source":"1","target":"2"},{"source":"2","target":"3"},{"source":"3","target":"4"},{"source":"4","target":"5"}]}

논문 심층 리뷰

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — Wei et al. (2022), NeurIPS

핵심 원리: LLM의 추론 능력은 복잡한 문제 해결 과정을 중간 단계의 '생각의 연쇄' (Chain of Thought, CoT)로 명시적으로 분해하여 보여줄 때 크게 향상됩니다. 이는 모델이 단답형으로 직접 답변을 내놓는 대신, 인간이 문제를 푸는 것처럼 단계별 사고 과정을 거치도록 유도하는 기법입니다. 내부적으로 모델은 복잡한 단일 조건부 확률 $P(Answer|Problem)$ 대신, $P(Thought_1|Problem)$ , $P(Thought_2|Problem, Thought_1)$ , ..., $P(Answer|Problem, Thought_1, ..., Thought_k)$ 와 같은 더 단순한 조건부 확률들의 연쇄를 생성하도록 학습됩니다 (인컨텍스트 학습). 이 분해된 과정은 모델이 각 단계에서 발생할 수 있는 오류를 줄이고, 다음 단계에 더 적절한 문맥 정보를 제공함으로써 최종 답변의 정확도를 높이는 원리입니다.

Governing equations: CoT는 문제 $X$, 중간 사고 과정 $C = (C_1, ..., C_k)$ , 그리고 정답 $Y$에 대해 $P_{CoT}(Y|X) = sum_{C} P(Y|C, X) P(C|X)$ 를 최대화하는 과정입니다. 모델은 프롬프트로부터 $P(C|X)$의 생성을 촉진하며, 이로 인해 $P(Y|C, X)$의 예측이 더 용이해집니다.
Quantitative boundaries: CoT는 60B 이상의 대규모 모델에서 특히 효과적이며, 모델 크기가 작을수록 효과가 미미하거나 관찰되지 않습니다. 이는 CoT가 모델의 스케일링에 따라 '새롭게 나타나는 능력'(emergent ability) 중 하나임을 시사합니다.
Analogy: 어려운 미로를 풀 때, 한 번에 출구를 찾는 대신, 지도에 길을 연필로 따라 그리며 한 단계씩 나아가는 것과 같습니다. 연필 자국(CoT)은 이전 단계의 성공을 기록하고 다음 단계를 위한 경로를 제공합니다.

연구 방법: 몇 가지 추론 문제(산술 추론, 상식 추론, 기호 추론)에 대해 모델에게 질의할 때, 소수의 예시(few-shot) 프롬프트에 문제와 함께 정답으로 이어지는 명시적인 추론 단계(Chain of Thought)를 포함시켜 제공합니다. 이후 새로운 문제를 제시했을 때 모델이 자체적으로 유사한 추론 단계를 생성하도록 유도합니다. 이 방법은 모델의 가중치를 업데이트하지 않는 인컨텍스트 학습(in-context learning) 방식입니다.

핵심 알고리즘: $X_{prompt} = (Problem_1, CoT_1, Answer_1, ..., Problem_k, CoT_k, Answer_k)$ , $X_{test} = (Problem_{new})$ . 모델은 $P(Token_t | Context_{<t})$ 에 따라 $CoT_{new}$ 와 $Answer_{new}$ 를 생성합니다.

정량적 결과:

측정항목	결과 (PaLM 540B)	기존 대비
MultiArith (산술)	58.0%	SOTA (35.3%) 대비 22.7%p 상승
GSM8K (수학 단어)	57.1%	SOTA (17.9%) 대비 39.2%p 상승
Aqua-RAT (상식)	56.4%	SOTA (32.0%) 대비 24.4%p 상승
StrategyQA (전략적)	71.2%	SOTA (63.5%) 대비 7.7%p 상승

의의: 이 연구는 모델 가중치 변경 없이 간단한 프롬프트 엔지니어링만으로 LLM의 복잡한 추론 능력을 획기적으로 향상시킬 수 있음을 보여주었으며, 이후 다양한 고급 추론 기법의 기반을 마련했습니다.

Tree of Thoughts: Deliberate Problem Solving with Large Language Models — Yao et al. (2023), NeurIPS

핵심 원리: CoT가 선형적인 사고 과정을 따르는 반면, ToT(Tree-of-Thought)는 추론 과정을 더 복잡한 '생각의 트리' 구조로 확장합니다. 이는 문제 해결 과정에서 여러 가지 가능한 다음 단계의 '생각'을 생성하고, 각 생각의 노드를 평가하여 가장 유망한 경로를 탐색하는 방식입니다. 구체적으로, 각 추론 단계에서 모델은 여러 개의 분기된 중간 생각(hypotheses)을 생성하고, '평가자' 역할을 하는 LLM 프롬프트를 사용하여 이 생각들의 유효성이나 유망성을 판단합니다. 유망하지 않은 경로는 가지치기(pruning)되어 탐색 공간을 효율적으로 관리합니다. 이 메커니즘은 LLM이 단순히 텍스트를 예측하는 것을 넘어, 마치 계획을 세우고 백트래킹하는 것과 같은 의도적인 문제 해결 능력을 모방하게 합니다.

Architecture Diagram: reactflow {"direction":"LR","nodes":[{"id":"1","label":"문제 정의"},{"id":"2","label":"생각 생성 (LLM)"},{"id":"3","label":"생각 평가 (LLM)"},{"id":"4","label":"가지치기"},{"id":"5","label":"최적 경로 탐색"},{"id":"6","label":"최종 답변"}],"edges":[{"source":"1","target":"2"},{"source":"2","target":"3"},{"source":"3","target":"4"},{"source":"4","target":"5"},{"source":"5","target":"6"}]}
Governing equations: ToT는 탐색 알고리즘을 사용하므로, $Q(s, a)$ 가치 함수나 휴리스틱 함수 $h(s)$를 통해 각 '생각' 노드 $s$와 이를 통해 생성될 다음 '생각' $a$의 유망성을 평가합니다. LLM은 이 $Q$ 또는 $h$를 프롬프트에 기반하여 암묵적으로 계산하거나, 명시적인 평가 프롬프트를 통해 값을 할당합니다. 탐색 과정은 예를 들어 BFS의 경우 모든 자식 노드를 확장하고 평가한 후 다음 레벨로 넘어가는 식으로 진행됩니다.
Quantitative boundaries: ToT는 CoT만으로는 해결하기 어려운 검색(search) 기반 문제나 계획(planning) 문제에서 그 강점을 발휘합니다. 특히, 잘못된 초기 추론 경로가 전체 문제 해결을 망칠 수 있는 경우 (예: 게임 이론, 복잡한 퍼즐) ToT의 분기 및 평가 메커니즘이 필수적입니다.
Analogy: 체스 게임에서 한 수(CoT)만 생각하는 것이 아니라, 몇 수 앞을 내다보고 여러 가능한 수와 그에 따른 상대방의 반응을 미리 상상하여(트리 생성) 각 시나리오의 좋고 나쁨을 평가한 후(평가), 가장 유리한 수를 선택하는 것과 같습니다. 불리한 경로는 빠르게 포기합니다.

연구 방법: LLM을 '생각 생성기'(proposer), '생각 평가기'(evaluator), '문제 해결기'(solver)로 활용합니다. 먼저 현재 상태에서 가능한 다음 '생각'들을 생성하고, 각 '생각'에 대해 평가 프롬프트를 통해 점수를 부여합니다. 이 점수를 기반으로 유망한 '생각'들을 선택하여 다음 단계로 진행하며, 이는 너비 우선 탐색(BFS) 또는 깊이 우선 탐색(DFS)과 같은 탐색 알고리즘과 결합됩니다. 이 과정은 최종 해답이 발견되거나 탐색 깊이가 한계에 도달할 때까지 반복됩니다.