LLM 할루시네이션 탐지·완화 연구 동향: 교차 모델 검증에서 경량 SLM까지

academic3/12/2026

llm할루시네이션ai자연어처리연구동향

대규모 언어모델(LLM) 할루시네이션 연구를 25편의 학술 논문을 기반으로 체계적으로 분석하였습니다. 교차 모델 일관성 검증(F1 +6~39%), RAG 기반 완화, 소형 언어모델 활용 경량 탐지 등 최신 접근법을 종합하며, 다층 방어 체계 구축이 현실적 방향임을 제시합니다.

> [Based on 25 papers reviewed from ACM, arXiv, Computational Linguistics, Scientific Reports, and other venues]

## 📋 연구 개요 (Executive Summary)

대규모 언어모델(LLM)의 **할루시네이션(hallucination)** — 사실과 다른 그럴듯한 텍스트를 생성하는 현상 — 은 LLM의 신뢰성을 근본적으로 위협하는 핵심 과제입니다. 본 리뷰는 2023~2025년 발표된 25편의 학술 논문을 체계적으로 분석하여, 할루시네이션의 원인 메커니즘, 탐지(detection) 기법, 완화(mitigation) 전략의 최신 연구 동향을 종합합니다.

**핵심 발견**:
- 할루시네이션은 학습 데이터 편향, 디코딩 전략, 지식 경계(knowledge boundary) 문제가 복합적으로 작용하는 구조적 현상
- 외부 지식 소스 없이도 교차 모델 일관성(cross-model consistency)으로 탐지 가능 (Goel et al., 2025)
- RAG(Retrieval-Augmented Generation) 기반 완화가 현재 가장 실용적이나, 검색 품질에 의존적
- 소형 언어모델(SLM)을 활용한 경량 탐지 기법이 새로운 연구 방향으로 부상

## 📚 문헌 검토 및 연구 배경

LLM 할루시네이션 연구는 2023년을 기점으로 폭발적으로 성장하였습니다. Huang et al. (2024)의 ACM Transactions on Information Systems 서베이(인용 1,094회)는 할루시네이션을 **사실성 할루시네이션(factuality hallucination)**과 **충실성 할루시네이션(faithfulness hallucination)**으로 분류하는 표준 분류 체계를 확립하였습니다.

Li et al. (2023)의 "Siren's Song in the AI Ocean" 서베이(인용 233회, 이후 2025년 Computational Linguistics에 정식 게재, 인용 97회 추가)는 할루시네이션의 원인을 **데이터 수준**(학습 데이터 내 오류/편향), **모델 수준**(아키텍처 한계), **추론 수준**(디코딩 전략)으로 체계화하였습니다.

GPT-4 Technical Report (OpenAI, 2023, 인용 2,236회)는 대규모 모델에서도 할루시네이션이 지속됨을 공식적으로 인정하며, RLHF(Reinforcement Learning from Human Feedback)를 통한 부분적 완화 가능성을 제시하였습니다.

| 저자 | 연도 | 학술지/학회 | 핵심 기여 | 인용수 |
|---|---|---|---|---|
| Huang et al. | 2024 | ACM TOIS | 할루시네이션 분류 체계 확립 | 1,094 |
| Li et al. | 2023/2025 | arXiv → Computational Linguistics | 원인 메커니즘 3단계 분류 | 233+97 |
| OpenAI | 2023 | arXiv | GPT-4에서의 할루시네이션 인정 | 2,236 |
| Goel et al. | 2025 | EMNLP 2025 | 교차 모델 일관성 탐지 | 신규 |

## 🔬 주요 연구 방법론 분석

할루시네이션 탐지 및 완화 연구는 크게 **블랙박스(black-box)** 접근과 **화이트박스(white-box)** 접근으로 구분됩니다.

**블랙박스 탐지 기법**: 모델 내부에 접근하지 않고 출력만으로 할루시네이션을 판별합니다.

Goel et al. (2025, EMNLP)의 **Finch-Zk** 프레임워크는 다중 모델의 응답을 의미적으로 등가인 프롬프트에서 비교하여 세밀한(fine-grained) 불일치를 탐지합니다. FELM 데이터셋에서 F1 점수를 기존 대비 **6~39% 향상**시켰으며, GPQA-diamond 데이터셋에서 답변 정확도를 **7~8%p 개선**하였습니다. 이 접근의 핵심 혁신은 외부 지식 소스(knowledge base) 없이도 모델 간 교차 검증만으로 사실성을 평가할 수 있다는 점입니다.

"Teaming LLMs to Detect and Mitigate Hallucinations" (2025, arXiv)은 다중 LLM 협업(team-based) 접근을 제안하며, 탐지 에이전트와 수정 에이전트를 분리하여 파이프라인을 구성합니다.

**화이트박스/확률 기반 탐지**: "Probabilistic distances-based hallucination detection in LLMs with RAG" (2025, arXiv)는 모델의 내부 확률 분포와 검색된 문서 간의 확률적 거리(probabilistic distance)를 측정하여 할루시네이션을 탐지합니다.

"First Hallucination Tokens Are Different from Conditional Ones" (2025, arXiv)는 할루시네이션이 시작되는 첫 번째 토큰의 확률 분포가 정상 토큰과 통계적으로 유의하게 다르다는 발견을 보고하며, 실시간 탐지의 가능성을 제시합니다.

**경량 탐지**: "Hallucination Detection with Small Language Models" (2025, arXiv)은 대형 모델 대신 소형 언어모델(SLM)을 탐지기로 활용하여 연산 비용을 크게 절감하면서도 경쟁력 있는 탐지 성능을 달성합니다.

| 논문 | 방법론 | 데이터셋 | 핵심 지표 | 결과 |
|---|---|---|---|---|
| Goel et al. (2025) | 교차 모델 일관성 | FELM, GPQA | F1, 정확도 | F1 +6~39%, Acc +7~8%p |
| 확률 거리 기반 (2025) | RAG + 확률 분포 | RAG 벤치마크 | 탐지 정밀도 | 기존 RAG 대비 개선 |
| SLM 탐지 (2025) | 소형 모델 활용 | 다중 벤치마크 | F1, 연산 비용 | 비용 90%↓, 성능 유사 |

## 📊 핵심 연구 결과 종합

**합의된 결론(Convergence)**:
1. 할루시네이션은 모델 크기 증가