LLM 추론 능력: 핵심 메커니즘, 심층 탐구 및 과제

academic
llm추론인공지능chainofthoughttreeofthoughtlargecs

LLM의 추론 능력은 복잡한 문제를 중간 단계로 분해하여 해결하는 과정에서 발현되며, 특히 Chain of Thought(CoT) 및 Tree of Thoughts(ToT)와 같은 프롬프트 기법을 통해 크게 향상됩니다. CoT는 선형적인 사고 과정을, ToT는 탐색 및 평가 기반의 트리 구조 사고를 가능하게 하여 모델의 문제 해결 능력을 확장합니다. 그러나 LLM은 환각, 새로운 지식 발견의 한계, 그리고 추론 과정의 비투명성이라는 미해결 과제에 직면해 있으며, 외부 지식 연동 및 설명 가능한 AI 연구를 통해 이를 극복하려는 노력이 진행 중입니다.

핵심 원리

거대 언어 모델(LLM)의 추론 능력은 복잡한 문제를 단일 단계로 해결하기보다, 일련의 중간 단계를 거쳐 해결하는 과정에서 발현됩니다. LLM은 본질적으로 다음 토큰을 예측하는 방식으로 작동하지만, 특정 프롬프트 구조가 주어졌을 때 이 예측 과정을 단순한 텍스트 완성 이상으로 활용하여 논리적 사고 과정을 모방할 수 있습니다. 이는 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제들로 분해하고, 각 하위 문제의 해답을 통합하여 최종 결론에 도달하는 방식입니다.

이 추론 메커니즘은 다음과 같은 인과 관계를 따릅니다:

  1. 복잡한 문제 입력: LLM에 산술, 논리, 상식 추론 등 다단계 해결을 요구하는 문제가 주어집니다.
  2. 추론 프롬프트: 모델은 명시적인 중간 사고 과정(예: Chain of Thought)을 포함하는 예시를 인컨텍스트 학습 방식으로 제공받거나, 자체적으로 중간 단계를 생성하도록 유도하는 프롬프트 지시를 받습니다. 이는 모델의 조건부 확률 분포 P(XanswerXproblem)P(X_{answer} | X_{problem})P(XanswerXproblem,Xthought)P(X_{answer} | X_{problem}, X_{thought})로 실질적으로 변화시킵니다.
  3. 단계적 토큰 생성: 모델은 이전 토큰과 프롬프트에 기반하여 다음 토큰을 순차적으로 생성합니다. 이때 추론 프롬프트는 모델이 문제 해결을 위한 내부 '사고' 단계를 외부화하는 토큰 시퀀스를 생성하도록 유도합니다. 예를 들어, 문제 $X$와 중간 사고 C1,C2,...,CkC_1, C_2, ..., C_k 그리고 최종 답변 $Y$로 구성된 전체 시퀀스 (X,C1,...,Ck,Y)(X, C_1, ..., C_k, Y)를 생성하는 것이 목표가 됩니다. 이는 prodi=1kP(CiX,C<i)cdotP(YX,Clek)prod_{i=1}^k P(C_i | X, C_{<i}) cdot P(Y | X, C_{le k})와 같은 확률을 최대화하는 과정으로 볼 수 있습니다. 여기서 P(Ci...)P(C_i | ...)는 중간 추론 단계의 생성 확률을, $P(Y | ...)$는 최종 답변의 생성 확률을 나타냅니다.
  4. 오류 감소 및 정확도 향상: 각 중간 단계에서 모델은 문제를 재평가하고, 이전에 생성된 정보를 바탕으로 다음 단계를 계획합니다. 이 과정은 잠재적인 오류를 초기에 발견하고 수정할 기회를 제공하며, 최종 답변의 정확도를 크게 향상시킵니다.

LLM의 텍스트 생성은 각 시점 $t$에서 이전 토큰 시퀀스 x<tx_{<t}에 기반하여 다음 토큰 xtx_t의 확률 분포를 예측하는 것입니다: P(xtx<t)P(x_t | x_{<t}). 추론은 이 조건부 확률 예측을 활용하여 긴 시퀀스 Xreasoning=(xproblem,xthought1,...,xthoughtk,xanswer)X_{reasoning} = (x_{problem}, x_{thought_1}, ..., x_{thought_k}, x_{answer})를 생성하는 최적화 문제입니다. 명시적인 추론 단계가 주어지지 않은 경우, 모델은 P(xanswerxproblem)P(x_{answer} | x_{problem})를 직접 추정해야 하지만, 추론 단계가 포함된 프롬프트가 주어지면 모델은 P(xanswerxproblem,xthought1,...,xthoughtk)P(x_{answer} | x_{problem}, x_{thought_1}, ..., x_{thought_k})를 예측하게 됩니다. 이 방식은 복잡한 하나의 조건부 확률을 여러 개의 단순한 조건부 확률로 분해하여 모델의 부담을 줄입니다.

이러한 추론 능력은 모델의 크기에 따라 다르게 나타납니다. 일반적으로 수십억 개 미만의 파라미터를 가진 소규모 LLM에서는 CoT(Chain of Thought)와 같은 추론 유도 프롬프트가 큰 효과를 보이지 않거나 전혀 효과가 없는 경우가 많습니다. 반면, 60B(600억)개 이상의 파라미터를 가진 대규모 모델에서는 CoT 프롬프트가 단답형 답변 대비 20~50%p 이상의 성능 향상을 가져오기도 합니다. 이는 추론 능력이 모델의 특정 규모 이상에서 발현되는 '새롭게 나타나는 능력'(emergent ability) 중 하나임을 시사합니다.

직관적인 비유로, 복잡한 수학 문제를 풀 때 단순히 최종 답만 적는 것(직접 추론)과, 풀이 과정을 단계별로 상세히 적어 내려가는 것(추론)의 차이와 유사합니다. 풀이 과정을 적는 것은 중간에 잘못된 부분이 없는지 확인하고, 논리적인 흐름을 유지하며 최종 답에 도달하는 데 도움을 줍니다. LLM의 추론도 이와 같이 문제 해결 과정을 외부화하여 모델이 더 견고하고 정확한 답을 찾도록 돕습니다.

{"direction":"TB","nodes":[{"id":"1","label":"복잡한 문제 (입력)"},{"id":"2","label":"프롬프트 엔지니어링 (CoT 예시)"},{"id":"3","label":"LLM 토큰 생성 (단계적 사고)"},{"id":"4","label":"중간 추론 단계 ($\\sum P(C_i|X,C_{<i})$)"},{"id":"5","label":"최종 답변 생성 ($P(Y|X,C_{\le k})$)"}],"edges":[{"source":"1","target":"2"},{"source":"2","target":"3"},{"source":"3","target":"4"},{"source":"4","target":"5"}]}

논문 심층 리뷰

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models — Wei et al. (2022), NeurIPS

핵심 원리: LLM의 추론 능력은 복잡한 문제 해결 과정을 중간 단계의 '생각의 연쇄' (Chain of Thought, CoT)로 명시적으로 분해하여 보여줄 때 크게 향상됩니다. 이는 모델이 단답형으로 직접 답변을 내놓는 대신, 인간이 문제를 푸는 것처럼 단계별 사고 과정을 거치도록 유도하는 기법입니다. 내부적으로 모델은 복잡한 단일 조건부 확률 $P(Answer|Problem)$ 대신, P(Thought1Problem)P(Thought_1|Problem), P(Thought2Problem,Thought1)P(Thought_2|Problem, Thought_1), ..., P(AnswerProblem,Thought1,...,Thoughtk)P(Answer|Problem, Thought_1, ..., Thought_k)와 같은 더 단순한 조건부 확률들의 연쇄를 생성하도록 학습됩니다 (인컨텍스트 학습). 이 분해된 과정은 모델이 각 단계에서 발생할 수 있는 오류를 줄이고, 다음 단계에 더 적절한 문맥 정보를 제공함으로써 최종 답변의 정확도를 높이는 원리입니다.

  • Governing equations: CoT는 문제 $X$, 중간 사고 과정 C=(C1,...,Ck)C = (C_1, ..., C_k), 그리고 정답 $Y$에 대해 PCoT(YX)=sumCP(YC,X)P(CX)P_{CoT}(Y|X) = sum_{C} P(Y|C, X) P(C|X)를 최대화하는 과정입니다. 모델은 프롬프트로부터 $P(C|X)$의 생성을 촉진하며, 이로 인해 $P(Y|C, X)$의 예측이 더 용이해집니다.
  • Quantitative boundaries: CoT는 60B 이상의 대규모 모델에서 특히 효과적이며, 모델 크기가 작을수록 효과가 미미하거나 관찰되지 않습니다. 이는 CoT가 모델의 스케일링에 따라 '새롭게 나타나는 능력'(emergent ability) 중 하나임을 시사합니다.
  • Analogy: 어려운 미로를 풀 때, 한 번에 출구를 찾는 대신, 지도에 길을 연필로 따라 그리며 한 단계씩 나아가는 것과 같습니다. 연필 자국(CoT)은 이전 단계의 성공을 기록하고 다음 단계를 위한 경로를 제공합니다.

연구 방법: 몇 가지 추론 문제(산술 추론, 상식 추론, 기호 추론)에 대해 모델에게 질의할 때, 소수의 예시(few-shot) 프롬프트에 문제와 함께 정답으로 이어지는 명시적인 추론 단계(Chain of Thought)를 포함시켜 제공합니다. 이후 새로운 문제를 제시했을 때 모델이 자체적으로 유사한 추론 단계를 생성하도록 유도합니다. 이 방법은 모델의 가중치를 업데이트하지 않는 인컨텍스트 학습(in-context learning) 방식입니다.

  • 핵심 알고리즘: Xprompt=(Problem1,CoT1,Answer1,...,Problemk,CoTk,Answerk)X_{prompt} = (Problem_1, CoT_1, Answer_1, ..., Problem_k, CoT_k, Answer_k), Xtest=(Problemnew)X_{test} = (Problem_{new}). 모델은 P(TokentContext<t)P(Token_t | Context_{<t})에 따라 CoTnewCoT_{new}AnswernewAnswer_{new}를 생성합니다.

정량적 결과:

측정항목 결과 (PaLM 540B) 기존 대비
MultiArith (산술) 58.0% SOTA (35.3%) 대비 22.7%p 상승
GSM8K (수학 단어) 57.1% SOTA (17.9%) 대비 39.2%p 상승
Aqua-RAT (상식) 56.4% SOTA (32.0%) 대비 24.4%p 상승
StrategyQA (전략적) 71.2% SOTA (63.5%) 대비 7.7%p 상승

의의: 이 연구는 모델 가중치 변경 없이 간단한 프롬프트 엔지니어링만으로 LLM의 복잡한 추론 능력을 획기적으로 향상시킬 수 있음을 보여주었으며, 이후 다양한 고급 추론 기법의 기반을 마련했습니다.

Tree of Thoughts: Deliberate Problem Solving with Large Language Models — Yao et al. (2023), NeurIPS

핵심 원리: CoT가 선형적인 사고 과정을 따르는 반면, ToT(Tree-of-Thought)는 추론 과정을 더 복잡한 '생각의 트리' 구조로 확장합니다. 이는 문제 해결 과정에서 여러 가지 가능한 다음 단계의 '생각'을 생성하고, 각 생각의 노드를 평가하여 가장 유망한 경로를 탐색하는 방식입니다. 구체적으로, 각 추론 단계에서 모델은 여러 개의 분기된 중간 생각(hypotheses)을 생성하고, '평가자' 역할을 하는 LLM 프롬프트를 사용하여 이 생각들의 유효성이나 유망성을 판단합니다. 유망하지 않은 경로는 가지치기(pruning)되어 탐색 공간을 효율적으로 관리합니다. 이 메커니즘은 LLM이 단순히 텍스트를 예측하는 것을 넘어, 마치 계획을 세우고 백트래킹하는 것과 같은 의도적인 문제 해결 능력을 모방하게 합니다.

  • Architecture Diagram: reactflow {"direction":"LR","nodes":[{"id":"1","label":"문제 정의"},{"id":"2","label":"생각 생성 (LLM)"},{"id":"3","label":"생각 평가 (LLM)"},{"id":"4","label":"가지치기"},{"id":"5","label":"최적 경로 탐색"},{"id":"6","label":"최종 답변"}],"edges":[{"source":"1","target":"2"},{"source":"2","target":"3"},{"source":"3","target":"4"},{"source":"4","target":"5"},{"source":"5","target":"6"}]}

  • Governing equations: ToT는 탐색 알고리즘을 사용하므로, $Q(s, a)$ 가치 함수나 휴리스틱 함수 $h(s)$를 통해 각 '생각' 노드 $s$와 이를 통해 생성될 다음 '생각' $a$의 유망성을 평가합니다. LLM은 이 $Q$ 또는 $h$를 프롬프트에 기반하여 암묵적으로 계산하거나, 명시적인 평가 프롬프트를 통해 값을 할당합니다. 탐색 과정은 예를 들어 BFS의 경우 모든 자식 노드를 확장하고 평가한 후 다음 레벨로 넘어가는 식으로 진행됩니다.

  • Quantitative boundaries: ToT는 CoT만으로는 해결하기 어려운 검색(search) 기반 문제나 계획(planning) 문제에서 그 강점을 발휘합니다. 특히, 잘못된 초기 추론 경로가 전체 문제 해결을 망칠 수 있는 경우 (예: 게임 이론, 복잡한 퍼즐) ToT의 분기 및 평가 메커니즘이 필수적입니다.

  • Analogy: 체스 게임에서 한 수(CoT)만 생각하는 것이 아니라, 몇 수 앞을 내다보고 여러 가능한 수와 그에 따른 상대방의 반응을 미리 상상하여(트리 생성) 각 시나리오의 좋고 나쁨을 평가한 후(평가), 가장 유리한 수를 선택하는 것과 같습니다. 불리한 경로는 빠르게 포기합니다.

연구 방법: LLM을 '생각 생성기'(proposer), '생각 평가기'(evaluator), '문제 해결기'(solver)로 활용합니다. 먼저 현재 상태에서 가능한 다음 '생각'들을 생성하고, 각 '생각'에 대해 평가 프롬프트를 통해 점수를 부여합니다. 이 점수를 기반으로 유망한 '생각'들을 선택하여 다음 단계로 진행하며, 이는 너비 우선 탐색(BFS) 또는 깊이 우선 탐색(DFS)과 같은 탐색 알고리즘과 결합됩니다. 이 과정은 최종 해답이 발견되거나 탐색 깊이가 한계에 도달할 때까지 반복됩니다.

정량적 결과:

측정항목 결과 (GPT-4) 기존 대비 (CoT)
Game of 24 74% CoT (4%) 대비 70%p 상승
Blocksworld (계획) 84% CoT (0%) 대비 84%p 상승
Mini Crosswords 82% CoT (0%) 대비 82%p 상승

의의: ToT는 LLM이 단순한 선형 추론을 넘어 다중 경로 탐색 및 평가를 통해 더 복잡하고 전략적인 문제 해결 능력을 갖출 수 있음을 입증했으며, 이는 LLM의 추론 능력을 탐색 및 계획 문제 영역으로 확장하는 중요한 진전을 이루었습니다.

미해결 과제

  1. 환각(Hallucination) 및 사실성 부족

    • 문제: LLM은 종종 그럴듯하지만 사실과 다른 정보를 생성하는 환각 현상을 보이며, 복잡한 추론 과정에서 10~20%의 확률로 사실적 오류를 포함할 수 있습니다. 특히 낮은 확률의 토큰 시퀀스를 생성할 때 이 문제가 심화됩니다.
    • 어려움: LLM의 생성 과정은 본질적으로 확률적이며, 내부적으로 명시적인 사실성 검증 메커니즘이 없습니다. 훈련 데이터의 편향, 불완전성, 그리고 다단계 추론 과정에서 발생하는 미묘한 오류가 누적되어 환각으로 이어지는 근본적인 한계가 있습니다.
    • 유망한 접근: 외부 지식 베이스(knowledge base)와 연동하여 생성된 추론 과정의 각 단계를 검증하거나, 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 통해 추론에 필요한 정보를 미리 확보하여 활용하는 방법이 연구되고 있습니다. 또한, 자기 성찰(self-reflection) 메커니즘을 통해 모델이 자신의 답변을 비판적으로 평가하고 수정하도록 유도하는 방법도 모색됩니다.
  2. 새로운 지식 발견 및 비판적 사고 능력

    • 문제: LLM은 기존 학습 데이터 내의 패턴을 조합하여 추론하지만, 완전히 새로운 과학적 가설을 세우거나, 기존 지식에 도전하는 비판적 사고를 통해 새로운 통찰을 발견하는 능력은 현재 미흡합니다. 즉, 학습된 지식의 재조합 능력은 높으나, 이를 초월하는 창의적 발견 능력은 제한적입니다.
    • 어려움: 새로운 지식 발견은 단순히 패턴 인식을 넘어선 가설 설정, 실험 설계, 결과 분석, 그리고 이론화 과정이 필요합니다. 이는 현재 LLM의 순수 생성 패러다임으로는 직접적으로 다루기 어려운 고차원적 인지 능력입니다.
    • 유망한 접근: LLM을 도구로 활용하여 가설 공간을 탐색하고, 시뮬레이션 환경에서 가설을 테스트하며, 결과를 바탕으로 LLM이 가설을 수정하는 반복적인 상호작용 시스템을 구축하는 연구가 진행 중입니다. 또한, 심층 강화 학습(Deep Reinforcement Learning)과 결합하여 모델이 탐색적 행동을 통해 보상을 최대화하도록 유도하는 방법도 모색되고 있습니다.
  3. 추론 과정의 비투명성 및 통제 불가능성

    • 문제: LLM의 추론 과정은 수천억 개의 파라미터로 이루어진 복잡한 신경망 내부에서 발생하므로, 특정 결론에 도달한 정확한 이유를 인간이 명확하게 이해하기 어렵습니다. 이는 CoT 등으로 과정을 외부화하더라도, 그 '생각'이 왜 그런 순서로 생성되었는지, 어떤 내부 상태 변화가 있었는지는 여전히 불투명합니다.
    • 어려움: LLM은 본질적으로 비선형적이고 고차원적인 함수 근사 모델입니다. 내부 작동 원리를 완전히 해부하는 것은 현재 기술 수준에서는 극히 어렵습니다.
    • 유망한 접근: 설명 가능한 AI(Explainable AI, XAI) 연구를 통해 특정 입력에 대한 모델의 내부 활성화 패턴을 분석하거나, 개념 기반 설명(concept-based explanation)을 통해 모델이 어떤 고수준 개념에 반응하여 추론을 진행하는지 파악하려는 시도가 있습니다. 또한, 추론 과정에 대한 인간의 피드백을 통해 모델이 특정 규칙이나 제약을 따르도록 유도하는 방법도 연구되고 있습니다.

Comments

Sign in to comment

Loading...