비전 트랜스포머의 구조, 원리 및 응용 연구

비전 트랜스포머(ViT)는 이미지를 패치로 분할하고 트랜스포머 인코더의 셀프 어텐션 메커니즘을 통해 이미지 전체의 전역적 문맥 정보를 학습합니다. 이는 CNN의 지역성 귀납적 편향을 넘어 장거리 의존성을 포착하며 다양한 컴퓨터 비전 작업에서 뛰어난 성능을 발휘합니다. ViT는 카메라 자세 추정, 얼굴 감정 분류, 이미지 조작 검출 등 광범위한 분야에 성공적으로 적용되었으나, 고해상도 이미지에 대한 연산 효율성 및 소규모 데이터셋에서의 데이터 효율성 문제는 여전히 중요한 연구 과제로 남아있습니다.

핵심 원리

비전 트랜스포머(Vision Transformer, ViT)는 이미지를 직접 시퀀스 처리하는 방식으로 컴퓨터 비전 분야에 트랜스포머 아키텍처를 도입하였습니다. 기존의 합성곱 신경망(Convolutional Neural Network, CNN)이 가지는 지역성(locality) 귀납적 편향(inductive bias) 없이 이미지 전체의 전역적 정보(global context)를 학습하는 데 강점을 보입니다. 입력 이미지는 먼저 고정된 크기의 여러 패치(patch)로 분할됩니다.

각 $P imes P$ 픽셀 크기의 이미지 패치들은 $D$차원의 임베딩 벡터로 선형 투영됩니다. 이 과정에서 이미지의 순서 정보를 반영하기 위해 각 패치 임베딩에 학습 가능한 위치 임베딩(positional embedding)이 추가됩니다. 특히, 이미지 분류 작업을 위해 첫 번째 패치 임베딩 앞에 분류 토큰(class token, $x_{class}$ )이 추가되며, 이 토큰의 최종 출력 상태가 전체 이미지의 분류 결과로 활용됩니다. 이 일련의 패치 임베딩 시퀀스는 트랜스포머 인코더의 입력으로 사용됩니다.

트랜스포머 인코더는 기본적으로 다중 헤드 셀프 어텐션(Multi-Head Self-Attention, MHSA)과 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 블록으로 구성됩니다. 셀프 어텐션 메커니즘은 시퀀스 내의 각 패치가 다른 모든 패치들과의 관계를 계산하여, 이미지 내의 장거리 의존성(long-range dependencies)을 효과적으로 포착합니다. $Q$ (Query), $K$ (Key), $V$ (Value) 행렬을 사용하여 다음과 같이 계산됩니다:

Attention(Q, K, V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V

여기서 $Q, K, V$는 입력 임베딩에 각각 다른 가중치 행렬을 곱하여 얻어지며, $d_k$ 는 쿼리/키 벡터의 차원입니다. 다중 헤드 어텐션은 이 과정을 병렬적으로 여러 번 수행하여 다양한 관계 표현을 학습한 후 그 결과를 결합합니다. 각 블록에는 레이어 정규화(Layer Normalization)와 잔차 연결(Residual Connection)이 적용되어 깊은 네트워크의 학습 안정성을 높입니다. 마지막으로, 트랜스포머 인코더의 출력 중 분류 토큰에 해당하는 벡터는 MLP 헤드(분류기)를 통해 최종 분류 예측을 수행합니다.

ViT의 동작은 마치 그림 퍼즐을 맞추는 것에 비유할 수 있습니다. 각 이미지 패치는 퍼즐 조각에 해당하며, 조각들을 선형적으로 나열한 뒤 각 조각의 위치 정보를 부여합니다. 셀프 어텐션 메커니즘은 이 조각들이 서로 어떻게 연결되는지(예: 이 조각은 저 조각의 옆에 있어야 하는가, 혹은 저 조각의 부분인가)를 학습하여, 최종적으로 모든 조각이 모여 어떤 그림을 형성하는지(전체 이미지의 의미)를 이해하게 됩니다. 이 과정에서 패치 크기($P$)는 트랜스포머에 입력되는 시퀀스 길이 $N = H W / P^2$ 를 결정하며, 이는 셀프 어텐션의 연산 복잡도 $O(N^2)$ 에 직접적인 영향을 미칩니다. 일반적으로 패치 크기가 작을수록 더 많은 정보를 담고 시퀀스 길이가 길어져 연산량이 증가하지만, 세밀한 특징을 포착하는 데 유리합니다. 예를 들어, 이미지 해상도 $224 imes 224$에 $16 imes 16$ 패치를 사용하면 $196$개의 패치가 생성됩니다.

Loading diagram...

논문 심층 리뷰

Transformer based 6DoF Pose Estimation for Visual SLAM — Chae et al. (2021), Journal of the Institute of Electronics and Information Engineers

핵심 원리: 단안 카메라 자세 추정(monocular camera pose estimation)은 비전 기반 자율 주행 및 로봇 공학의 핵심 과제입니다. 이 연구는 비지도 학습(unsupervised learning) 방식으로 카메라의 6자유도(6DoF) 자세를 추정하기 위해 합성곱 신경망(CNN)과 비전 트랜스포머(ViT)를 결합한 하이브리드 네트워크를 제안합니다. CNN은 이미지에서 지역적 특징을 효과적으로 추출하는 반면, ViT는 전역적 문맥 정보를 파악하는 데 강점이 있습니다. 이 연구의 핵심은 CNN을 통해 추출된 특징 맵을 ViT의 입력으로 사용하되, 기존 ViT의 셀프 어텐션 연산량을 줄이기 위해 패치들의 차원을 점진적으로 축소하는 것입니다. 이는 고해상도 이미지 또는 많은 패치 수에서 발생하는 $O(N^2)$ 연산 복잡도 문제를 완화하며, 전체적인 연산 비용을 감소시키는 동시에 중요한 공간적 관계를 학습할 수 있도록 합니다. 두 프레임 간의 자세 $T_{t o t'}$ 는 3차원 이동 벡터 $mathbf{t}$ 와 3차원 회전 벡터 oldsymbol{ heta}로 구성되며, 이들을 추정하는 것이 목표입니다. 이 방법은 넓은 시야각이나 복잡한 환경 변화에서도 강건하게 작동하는 장점을 가집니다. 마치, 복잡한 지도에서 특정 위치를 찾을 때, 먼저 넓은 지역의 지형을 개괄적으로 파악(CNN 특징 추출)한 다음, 관심 영역 내에서 특정 건물이나 도로의 상호 관계를 세밀하게 분석하되, 필요한 정보만 압축적으로 살펴보는 방식(차원 축소된 ViT 셀프 어텐션)과 유사합니다.

Loading diagram...

연구 방법: CNN 인코더로 이미지 특징을 추출한 후, 이 특징 맵을 패치로 분할하여 ViT 인코더의 입력으로 사용합니다. ViT의 셀프 어텐션 계산 시 패치 임베딩의 차원 $d$를 점진적으로 축소함으로써 연산량 $O(N^2 d)$ 를 줄입니다. 최종적으로 ViT의 출력은 두 프레임 간의 이동 및 회전 정보를 나타내는 6DoF(6 Degrees of Freedom) 값으로 변환됩니다. 손실 함수는 주로 포즈 추정의 예측 오차를 최소화하고, 재투영 오차(reprojection error)를 활용하여 비지도 학습을 수행합니다.

정량적 결과:

측정항목	결과	기존 대비
이동 오차 (t_err)	0.015 (avg)	향상
회전 오차 (r_err)	0.005 (avg)	향상

의의: 이 연구는 ViT의 전역적 정보 처리 능력을 활용하면서도 셀프 어텐션의 높은 연산 복잡도를 완화하는 실용적인 방법을 제시하여, 실시간 시각 SLAM 시스템에 트랜스포머 기반 모델을 적용할 가능성을 보여주었습니다.

A Research on Korean Facial Emotion Classification Based on Vision Transformer Model — Sim et al. (2024), Journal of the Korea Academia-Industrial cooperation Society

핵심 원리: 인간의 얼굴 표정 분류는 인간-컴퓨터 상호작용 및 감성 컴퓨팅 분야에서 중요한 연구 주제입니다. 기존 연구들은 주로 서양인의 얼굴 데이터셋에 기반한 CNN 모델을 사용해 왔습니다. 본 연구는 사전 학습된 비전 트랜스포머(ViT) 모델을 활용하여 한국인의 얼굴 표정을 7가지 감정(행복, 슬픔, 놀람, 분노, 불안, 혐오, 중립)으로 분류하는 데 초점을 맞춥니다. ViT는 대규모 이미지 데이터셋에서 사전 학습될 때 강력한 시각적 특징 학습 능력을 보여주며, 이를 통해 특정 도메인(여기서는 한국인 얼굴)의 미묘한 특징 변화도 효과적으로 포착할 수 있습니다. 핵심은 일반적인 시각 특징을 학습한 ViT 모델을 한국인 얼굴 표정 데이터셋으로 미세 조정(fine-tuning)하여, 인종적 특성과 감정 표현의 다양성을 더 잘 반영하는 분류기를 개발하는 것입니다. 이는 마치 외국어를 능숙하게 구사하는 사람이 특정 지역의 사투리를 집중적으로 학습하여 그 지역 사람들의 미묘한 억양과 표현을 정확히 이해하고 구분하게 되는 과정과 유사합니다.

연구 방법: 사전 학습된 ViT 모델을 기반으로, 70,000장의 한국인 얼굴 감정 이미지 데이터셋을 8:1:1의 비율로 학습, 검증, 테스트 데이터로 분할하여 미세 조정 학습을 수행했습니다. 이미지에서 얼굴 좌표값을 활용하여 얼굴 영역을 크롭하여 입력으로 사용했습니다. 손실 함수로는 다중 클래스 분류에 흔히 사용되는 크로스 엔트로피 손실(cross-entropy loss)이 사용되었습니다.

L_{CE} = -\sum_{c=1}^{C} y_c \log(p_c)

여기서 $y_c$ 는 정답 클래스 $c$에 대한 원-핫 인코딩 값이고, $p_c$ 는 모델이 예측한 클래스 $c$에 속할 확률입니다.

정량적 결과:

측정항목	결과	기존 대비
전체 정확도	85.54%	CNN 모델 대비 1.17% 향상
불안/슬픔 감정 분류 성능	개선	기존 CNN 대비 향상

의의: ViT 모델이 한국인 얼굴 표정 분류에서 CNN 기반 모델보다 우수한 성능을 보임을 입증하며, 특정 인종 및 문화적 맥락에 특화된 감정 인식 시스템 개발 가능성을 제시했습니다.

Digital Image Forgery Detection Framework based on Image Feature Enhancement and Ensemble Learning — Kil et al. (2024), The Journal of Korean Institute of Information Technology

핵심 원리: 디지털 환경에서 이미지 조작은 사회적 신뢰를 훼손하고 오해를 유발할 수 있어, 조작된 이미지를 효과적으로 검출하는 시스템의 필요성이 증대되고 있습니다. 이 연구는 조작된 이미지의 특징을 강화(feature enhancement)하는 전처리 과정과 함께, 다양한 딥러닝 모델(CNN 및 ViT 기반)의 앙상블 학습(ensemble learning)을 활용하여 이미지 조작 검출 성능을 향상시키는 프레임워크를 제안합니다. 이미지 조작은 종종 미묘한 시각적 아티팩트(artifact)를 남기는데, 특징 강화는 이러한 미세한 조작 흔적을 더욱 두드러지게 만듭니다. 이후, 각각 다른 귀납적 편향을 가진 CNN과 ViT 모델들이 이 강화된 특징을 독립적으로 분석하고, 최종적으로 이 모델들의 예측을 결합하여 조작 여부를 판단하는 것이 핵심입니다. ViT는 이미지 전체의 맥락에서 조작 흔적을 탐지하는 데 유리하며, CNN은 지역적인 이상 패턴을 찾는 데 강점이 있어 서로의 단점을 보완합니다. 이는 여러 명의 전문가(다수 딥러닝 모델)가 동일한 증거(특징 강화된 이미지)를 각자의 전문 분야(CNN은 지역적, ViT는 전역적)에서 면밀히 검토한 후, 최종 판정을 위해 의견을 종합하는 과정과 유사합니다. 이 과정을 통해 단일 모델로는 놓치기 쉬운 조작의 흔적들을 더 견고하게 찾아낼 수 있습니다.

연구 방법: 입력 이미지에 특징 강화 기법을 적용하여 조작의 흔적을 부각시킨 후, 컨볼루션 신경망(CNN) 및 비전 트랜스포머(ViT) 기반의 다섯 가지 모델(ResNet, EfficientNet, ViT 등)을 개별적으로 학습시킵니다. 이 모델들의 예측 결과를 앙상블 학습 기법(예: 소프트 보팅, 가중 평균 등)으로 결합하여 최종 조작 여부를 판별합니다. 앙상블 예측은 각 모델의 예측 확률 $p_i$ 에 가중치 $w_i$ 를 부여한 후 합산하여 최종 예측을 도출하는 방식으로 이루어집니다: $P_{ensemble} = \sum_{i=1}^{M} w_i p_i$ .

정량적 결과:

측정항목	결과	기존 대비
조작 검출 정확도 (최소)	3.45% 상승	기본 모델 대비
조작 검출 정확도 (최대)	10.4% 상승	기본 모델 대비

의의: 특징 강화와 CNN-ViT 앙상블 학습을 통해 다양한 형태의 디지털 이미지 조작을 강건하게 검출할 수 있는 프레임워크를 제시하며, 실제 디지털 포렌식 분야에서의 활용 가능성을 높였습니다.

미해결 과제

비전 트랜스포머는 컴퓨터 비전 분야에서 인상적인 발전을 이루었지만, 여전히 몇 가지 중요한 미해결 과제를 안고 있습니다.

연산 효율성 및 확장성: 현재 ViT는 특히 고해상도 이미지 처리에서 셀프 어텐션 메커니즘의 $O(N^2)$ 연산 복잡도로 인해 높은 계산 비용을 요구합니다. 여기서 $N$은 이미지 패치의 수입니다. 예를 들어, $1024 imes 1024$ 해상도의 이미지를 $16 imes 16$ 패치로 분할하면 $N=4096$이 되어, 셀프 어텐션 연산량이 $1670$만 배 이상 증가합니다. 이는 실시간 응용이나 제한된 하드웨어 환경에서의 배포를 어렵게 하는 근본적인 장벽입니다. 이러한 문제를 해결하기 위해 희소 어텐션(sparse attention)이나 선형 복잡도 어텐션(linear attention)과 같은 효율적인 어텐션 메커니즘을 탐구하는 것이 가장 유망한 접근 방식입니다. Chae et al. (2021)은 패치 차원을 점진적으로 축소하는 방법을 통해 이 문제를 일부 완화하려는 시도를 보였습니다.
데이터 효율성: ViT는 일반적으로 대규모 데이터셋(예: ImageNet-21k, JFT-300M)에서 사전 학습될 때 CNN 모델을 능가하는 성능을 보이지만, 소규모 데이터셋에서는 CNN에 비해 성능이 저조한 경향이 있습니다. 이는 ViT가 CNN처럼 이미지의 지역성(locality)이나 이동 불변성(translation invariance)과 같은 강력한 귀납적 편향을 내재하지 않기 때문에, 이러한 패턴을 대량의 데이터로부터 학습해야 하기 때문입니다. 이 문제를 극복하기 위해 데이터 증강(data augmentation), 지식 증류(knowledge distillation, CNN과 같은 교사 모델로부터 ViT 학생 모델로 지식을 전달), 또는 자기 지도 학습(self-supervised learning)과 같은 방법론들이 활발히 연구되고 있습니다.
해석 가능성: ViT의 셀프 어텐션 메커니즘은 이미지 내의 다양한 영역 간의 관계를 학습하지만, 어떤 시각적 특징이나 패턴이 특정 결정에 기여하는지, 그리고 왜 모델이 그러한 방식으로 동작하는지에 대한 심층적인 해석은 여전히 어렵습니다. 이는 딥러닝 모델의 일반적인 '블랙박스' 문제에 해당하며, 특히 의학 영상 분석이나 자율 주행과 같이 높은 신뢰성과 설명 가능성이 요구되는 분야에서는 중요한 제약으로 작용합니다. 어텐션 맵 시각화는 모델이 '어디'를 보고 있는지 보여주지만, '왜' 그렇게 보는지에 대한 인과적 이해는 제공하지 않습니다. 이 분야에서는 그래디언트 기반 시각화 기법, 특정 뉴런의 활성화 패턴 분석, 그리고 인과 관계 추론을 위한 방법론 개발이 진행 중입니다.

비전 트랜스포머의 구조, 원리 및 응용 연구

핵심 원리

논문 심층 리뷰

Transformer based 6DoF Pose Estimation for Visual SLAM — Chae et al. (2021), Journal of the Institute of Electronics and Information Engineers

A Research on Korean Facial Emotion Classification Based on Vision Transformer Model — Sim et al. (2024), Journal of the Korea Academia-Industrial cooperation Society

Digital Image Forgery Detection Framework based on Image Feature Enhancement and Ensemble Learning — Kil et al. (2024), The Journal of Korean Institute of Information Technology

미해결 과제

References

Comments