비전 트랜스포머의 원리, 구조 및 응용 연구

academic
visiontransformerselfattention딥러닝컴퓨터비전인공지능visioncs

비전 트랜스포머(ViT)는 이미지를 패치로 분할하고 셀프-어텐션 메커니즘을 통해 전역적 의존성을 학습하는 딥러닝 모델로, 대규모 데이터셋에서 높은 성능을 보입니다. 다양한 응용 분야에서 비전 트랜스포머는 이미지 조작 검출, 카메라 자세 추정, 얼굴 감정 분류 등에서 기존 CNN 기반 모델 대비 성능 향상을 입증했습니다. 그러나 ViT는 높은 계산 복잡성, 데이터 효율성 부족, 그리고 모델 해석 가능성 및 잠재적 편향 문제와 같은 미해결 과제를 안고 있으며, 이를 해결하기 위한 연구가 활발히 진행 중입니다.

2026년 4월 2일 목요일

핵심 원리

트랜스포머 아키텍처는 원래 자연어 처리(NLP) 분야에서 등장하여 시퀀스 데이터의 장거리 의존성(long-range dependencies)을 효과적으로 모델링하는 능력을 입증했으나, 이 개념이 컴퓨터 비전 분야에도 성공적으로 확장되어 비전 트랜스포머(Vision Transformer, ViT)로 발전했습니다. ViT의 핵심은 이미지를 텍스트 시퀀스처럼 처리하여 표준 트랜스포머 인코더에 입력하는 것입니다.

이 과정은 다음과 같이 진행됩니다. 첫째, 입력 이미지 IinmathbbRHimesWimesCI in mathbb{R}^{H imes W imes C} (높이 $H$, 너비 $W$, 채널 $C$)를 고정된 크기의 겹치지 않는 패치(patch) $P imes P$로 분할합니다. 예를 들어, $224 imes 224$ 크기의 이미지를 $16 imes 16$ 패치로 분할하면 총 $(224/16) imes (224/16) = 14 imes 14 = 196$개의 패치가 생성됩니다. 각 패치 xiinmathbbRPimesPimesCx_i in mathbb{R}^{P imes P imes C}는 벡터로 펼쳐진 후(flatten) 선형 임베딩 레이어를 통과하여 $D$차원의 패치 임베딩 ziinmathbbRDz_i in mathbb{R}^{D}로 변환됩니다. 이러한 선형 임베딩은 각 패치의 저차원 표현을 학습합니다. zi=extLinearProjection(xi)z_i = ext{LinearProjection}(x_i)

둘째, 트랜스포머의 시퀀스 처리를 위해 추가적인 요소들이 도입됩니다. 전체 이미지의 최종 표현을 학습하기 위한 학습 가능한 클래스 토큰(class token) zclassinmathbbRDz_{class} in mathbb{R}^{D}가 패치 임베딩 시퀀스의 시작 부분에 추가됩니다. 또한, 패치들의 공간적 위치 정보를 보존하기 위해 위치 임베딩(positional embedding) EposinmathbbR(N+1)imesDE_{pos} in mathbb{R}^{(N+1) imes D}가 각 패치 임베딩 및 클래스 토큰에 더해집니다. 여기서 $N$은 패치의 총 개수를 의미합니다. 이들은 모두 함께 트랜스포머 인코더의 입력 시퀀스 Z0Z_0를 형성합니다. Z0=[zclass;z1;z2;...;zN]+EposZ_0 = [z_{class}; z_1; z_2; ...; z_N] + E_{pos}

셋째, 이렇게 구성된 시퀀스는 트랜스포머 인코더의 핵심 구성 요소인 멀티-헤드 셀프-어텐션(Multi-Head Self-Attention, MSA) 메커니즘을 통과합니다. 셀프-어텐션은 시퀀스 내의 각 토큰(즉, 각 패치 임베딩)이 다른 모든 토큰과 얼마나 관련이 있는지를 계산하여 장거리 의존성을 효과적으로 포착합니다. 각 어텐션 헤드 내에서 쿼리($Q$), 키($K$), 값($V$) 행렬은 입력 임베딩에 선형 변환을 적용하여 생성됩니다. 스케일드 닷-프로덕트 어텐션은 다음과 같이 계산됩니다:

Attention(Q, K, V) = ext{softmax}left( rac{QK^T}{sqrt{d_k}} ight)V
여기서 $Q, K, V$는 각각 쿼리, 키, 값 행렬이며, dkd_k는 키 벡터의 차원입니다. extsoftmaxext{softmax} 함수는 어텐션 가중치를 정규화하여 합이 1이 되도록 만듭니다. 멀티-헤드 어텐션은 여러 개의 어텐션 헤드를 병렬로 사용하여 다양한 관점에서 관계를 학습하고, 그 결과를 결합합니다:
MultiHead(Q,K,V)=Concat(head1,...,headh)WOMultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O
headi=Attention(QWiQ,KWiK,VWiV)head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)
여기서 WiQ,WiK,WiVW_i^Q, W_i^K, W_i^V는 $i$-번째 헤드의 쿼리, 키, 값에 대한 학습 가능한 선형 변환 가중치 행렬이며, WOW^O는 최종 선형 변환 가중치 행렬입니다. 각 어텐션 레이어 다음에는 피드포워드 신경망(Feed-Forward Network, FFN)이 위치하여 비선형 변환을 수행하며, 각 블록은 잔차 연결(residual connection)과 레이어 정규화(layer normalization)를 포함합니다.

마지막으로, 여러 트랜스포머 인코더 블록을 통과한 후, 클래스 토큰에 해당하는 최종 출력은 MLP 헤드(다층 퍼셉트론)에 입력되어 이미지 분류와 같은 최종 예측을 수행합니다.

일반적으로 ViT는 대규모 데이터셋(예: ImageNet-21k, JFT-300M)에서 사전 학습될 때 컨볼루션 신경망(CNN) 기반 모델을 능가하는 성능을 보입니다. 그러나 데이터셋의 크기가 작을 경우, CNN 대비 성능 이점을 상실하거나 낮은 성능을 보일 수 있습니다 (Kil et al., 2024, The Journal of Korean Institute of Information Technology). 이는 트랜스포머의 어텐션 메커니즘이 국소적인 특징 학습보다는 전역적인 관계 학습에 더 유리하며, 이를 위해 많은 데이터가 필요하기 때문입니다. 패치 크기 $P imes P$는 모델의 성능과 계산량에 중요한 영향을 미치는데, 패치 크기가 작아지면 시퀀스 길이가 길어져 셀프-어텐션의 계산 복잡도(O(N2)O(N^2), $N$은 시퀀스 길이)가 증가하지만, 더 세밀한 특징을 포착할 수 있습니다.

직관적으로, 비전 트랜스포머는 마치 그림을 감상하는 방식과 유사합니다. CNN이 붓으로 그림의 특정 부분을 확대해서 세밀한 터치와 질감을 파악하는 화가라면, ViT는 그림을 여러 조각(패치)으로 나눈 뒤, 각 조각이 다른 조각들과 어떤 관계를 맺고 전체 그림을 구성하는지 조망하는 미술 비평가와 같습니다. 비평가는 그림 전체를 이해하기 위해 각 조각 간의 관계와 의미를 종합적으로 분석하는 데 집중합니다.

Loading diagram...

논문 심층 리뷰

디지털 조작 이미지 검출 프레임워크 — H. Kil et al. (2024)

핵심 원리: 이 연구는 디지털 조작 이미지의 특징을 강화하고, 이를 딥러닝 기반 모델들의 앙상블 학습에 활용하여 조작 검출 성능을 향상시키는 프레임워크를 제안합니다 (Kil et al., 2024, The Journal of Korean Institute of Information Technology). 비전 트랜스포머(ViT)는 이미지의 장거리 의존성을 포착하는 능력을 통해 조작으로 인해 발생하는 미묘하고 전역적인 패턴 변화를 인지하는 데 기여합니다. 이 프레임워크는 원본 이미지 $I$에 특정 필터 $F$를 적용하여 조작 흔적을 강조하는 특징 강화 이미지 $I'$를 생성하는 전처리 과정을 포함합니다: $$I' = F(I)$$ 여기서 $F$는 조작으로 인한 노이즈 패턴, 경계선 왜곡, 주파수 도메인 변화 등과 같은 아티팩트를 강조하도록 설계된 필터일 수 있습니다. 강화된 특징을 가진 이미지 $I'$는 비전 트랜스포머를 포함한 여러 딥러닝 모델의 입력으로 사용되어 조작 여부를 판단합니다. ViT는 이미지를 패치 단위로 분할하여 선형 임베딩한 후, 각 패치 간의 관계를 셀프-어텐션 메커니즘을 통해 학습합니다. 조작으로 인해 발생한 이미지 내의 비정상적인 연결성이나 일관성 부족은 ViT의 셀프-어텐션 레이어에서 높은 어텐션 가중치로 나타나거나 특정 패턴으로 학습될 수 있습니다. 여러 모델의 예측 결과를 결합하는 앙상블 기법은 개별 모델의 편향을 줄이고 일반화 성능을 높이는 역할을 합니다. 이는 여러 명의 전문가(개별 딥러닝 모델)가 조작된 그림(특징 강화 이미지)의 여러 단서(이미지 패치)들을 면밀히 검토하고 각자의 의견(예측)을 종합하여 최종 판단을 내리는 과정과 유사합니다. 각 전문가가 다른 관점에서 위조 여부를 판단하며, 한 명의 전문가가 놓칠 수 있는 미묘한 단서를 다른 전문가가 발견하여 전체적인 판단의 신뢰도를 높이는 것입니다.

연구 방법: 이 연구는 특징 강화된 조작 이미지를 생성한 후, 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT) 기반의 다섯 가지 모델을 개별적으로 학습시키고, 이 모델들의 예측 결과를 앙상블 학습을 통해 최종 검출에 활용하였습니다. 앙상블 모델의 최종 예측 YensembleY_{ensemble}은 개별 모델들의 예측 yiy_i의 가중 평균 또는 다수결 투표로 결정됩니다: Yensemble=extMode(y1,y2,y3,y4,y5)Y_{ensemble} = ext{Mode}({y_1, y_2, y_3, y_4, y_5}) 또는 Yensemble=sumi=15wiyiY_{ensemble} = sum_{i=1}^5 w_i y_i.

정량적 결과:

측정항목 결과 기존 대비
정확도 (Accuracy) 최소 3.45% 상승 기본 모델 대비
정확도 (Accuracy) 최대 10.4% 상승 기본 모델 대비

의의: 이 연구는 특징 강화와 앙상블 학습의 결합이 다양한 디지털 이미지 조작에 대한 검출 성능을 효과적으로 향상시킬 수 있음을 입증하며, 특히 비전 트랜스포머를 활용하여 조작 이미지 검출의 강건성과 확장 가능성을 높이는 데 기여합니다.

Visual SLAM을 위한 Transformer 기반 6DoF 자세 추정 기법 — J.-M. Chae & S.-C. Lee (2021)

핵심 원리: 이 연구는 단안 카메라의 6자유도(6DoF) 자세 추정을 위해 비전 트랜스포머(ViT)와 합성곱 신경망(CNN)을 결합한 하이브리드 네트워크를 제안합니다 (Chae & Lee, 2021, Journal of the Institute of Electronics and Information Engineers). CNN은 이미지에서 국소적인 특징을 효과적으로 추출하는 데 강점을 가지며, ViT는 이 특징들 간의 장거리 의존성을 파악하여 전역적인 문맥 정보를 추론하는 데 활용됩니다. CNN 계층을 통해 생성된 특징 맵 FCNNF_{CNN}은 고정된 크기의 패치들 PjP_j로 분할됩니다:

Pj=extCrop(FCNN,extpatchsize)P_j = ext{Crop}(F_{CNN}, ext{patch_size})
각 패치는 트랜스포머의 입력 토큰처럼 취급되며, 이 패치들은 셀프-어텐션(Self-Attention) 연산을 통해 상호 연관성을 계산합니다. 기존 ViT와는 다르게, 이 연구에서는 셀프-어텐션 연산 적용 시 패치들의 차원 dkd_k를 점진적으로 축소하는 방식을 사용하여 계산량을 감소시켰습니다. 이 과정을 통해 트랜스포머는 장면 내 객체나 환경 요소들의 상대적인 위치 관계, 즉 공간적 배치에 대한 정보를 통합적으로 학습합니다. 최종적으로, 네트워크는 연속된 두 프레임 간의 6DoF (3축 이동 tx,ty,tzt_x, t_y, t_z 및 3축 회전 rx,ry,rzr_x, r_y, r_z) 자세 추정값을 출력합니다. 직관적으로, 이 시스템은 눈(CNN)으로 주변 환경의 세부적인 특징들을 인지하고, 뇌(ViT)로 그 특징들 간의 복잡한 공간적 관계를 파악하여 현재 자신의 위치와 방향을 파악하는 것과 같습니다. 이 과정에서 뇌는 중요한 정보를 선별적으로 처리하며, 모든 시각 정보를 동등하게 처리하기보다 필요한 정보에 더 많은 주의를 기울여(어텐션) 불필요한 연산을 줄이는 지능적인 접근 방식을 취합니다.

연구 방법: 단안 카메라 이미지에서 CNN으로 특징을 생성하고, 생성된 특징 맵을 패치로 분할하여 ViT의 셀프-어텐션 메커니즘을 통해 패치 간 연관성을 학습합니다. 셀프-어텐션의 연산량 감소를 위해 패치 차원을 점진적으로 축소하며, 최종적으로 두 프레임 간의 6DoF 이동 및 회전 정보를 추정합니다. 손실 함수는 예측된 포즈 hatThat{T}와 실제 포즈 $T$ 사이의 오차를 최소화하는 방식으로 구성됩니다. 예를 들어, mathcalL(T,hatT)mathcal{L}(T, hat{T})와 같은 포즈 추정 오차를 최소화합니다.

Loading diagram...

정량적 결과:

측정항목 결과 기존 대비
Pose Estimation 성능 향상됨 대부분 CNN으로만 구성된 이전 구조 대비

의의: 이 연구는 비전 트랜스포머와 셀프-어텐션 기반 기법이 Visual SLAM의 핵심 과제인 카메라 자세 추정 문제에 응용될 수 있는 잠재성을 보여주며, 하이브리드 아키텍처가 CNN 단독 모델보다 우수한 성능을 달성할 수 있음을 입증합니다.

비전 트랜스포머 모델 기반 한국인 얼굴 감정 분류 연구 — J.-H. Sim & C.-J. Kim (2024)

핵심 원리: 이 연구는 사전 학습된 비전 트랜스포머(ViT) 모델을 한국인 얼굴 표정 데이터셋에 파인튜닝하여 7가지 기본 감정을 분류하는 데 중점을 둡니다 (Sim & Kim, 2024, Journal of the Korea Academia-Industrial cooperation Society). ViT는 이미지를 고정된 크기의 패치로 나누고, 각 패치를 토큰처럼 처리하여 셀프-어텐션 메커니즘을 통해 이미지 내의 전역적인 맥락적 특징을 학습합니다. 얼굴 표정 분류에서 이는 얼굴 전체의 미묘한 변화(예: 눈썹의 움직임, 입꼬리의 변화, 미간 주름 등)와 이들 요소 간의 복합적인 관계를 인식하여 감정을 정확히 구별하는 데 필수적입니다. 특히, 특정 인종의 얼굴 특징에 특화된 데이터셋을 사용하여 모델을 파인튜닝함으로써, 일반적인 데이터셋(주로 서양인 얼굴 중심)에서 학습된 모델이 가질 수 있는 편향을 줄이고 한국인의 얼굴 표정 인식 정확도를 높입니다. 모델 파인튜닝 과정은 사전 학습된 ViT의 가중치를 특정 작업(감정 분류) 및 데이터셋(한국인 얼굴)에 맞게 조정하는 것으로, 이는 기존 지식(사전 학습된 가중치)을 새로운 학습 데이터에 효율적으로 전이하는 방식입니다. 직관적으로, 이는 외국어에 능통한 사람이 특정 방언을 배우기 위해 기존 언어 지식(사전 학습)을 바탕으로 해당 방언의 특유의 표현과 발음(한국인 얼굴 표정)을 집중적으로 익히는 것과 같습니다. 기존에 학습된 문법 구조(ViT 아키텍처)는 유지하되, 세부적인 표현 방식(얼굴 특징)을 조정하여 더 정확한 의사소통(감정 분류)을 가능하게 합니다.

연구 방법: 사전 학습된 ViT 모델을 활용하여 한국인 얼굴 표정 데이터셋에 대해 파인튜닝을 수행하였습니다. 데이터셋은 총 70,000장의 이미지를 훈련, 검증, 테스트 세트로 8:1:1의 비율로 분할하여 구성했으며, 메타데이터에서 제공하는 얼굴 좌표값을 이용하여 얼굴 부분을 크롭하여 모델 입력에 사용하였습니다. 최종 분류를 위한 손실 함수는 다중 클래스 분류에 흔히 사용되는 크로스 엔트로피 손실 함수(mathcalLCEmathcal{L}_{CE})를 사용합니다:

mathcalLCE=sumc=1Cyclog(hatyc)mathcal{L}_{CE} = -sum_{c=1}^C y_c log(hat{y}_c)
여기서 $C$는 감정 클래스 수(7가지), ycy_c는 실제 클래스 레이블(원-핫 인코딩), hatychat{y}_c는 모델이 예측한 클래스 $c$에 대한 확률입니다.

정량적 결과:

측정항목 결과 기존 대비
전체 테스트 데이터셋 정확도 85.54% CNN 기반 모델 대비 1.17% 상승
불안, 슬픔 클래스 성능 개선됨 다른 클래스 대비 낮은 성능이었으나 개선

의의: 이 연구는 비전 트랜스포머가 특정 인종 그룹에 특화된 얼굴 감정 분류 작업에서 CNN 기반 모델보다 우수한 성능을 달성할 수 있음을 보여주며, 이는 문화적 또는 인종적 특성을 반영한 컴퓨터 비전 모델 개발의 중요성을 시사합니다.

미해결 과제

  1. 계산 복잡성 및 효율성:

    • 무엇이 해결되지 않았는가: 비전 트랜스포머, 특히 순수 ViT 모델은 입력 시퀀스 길이($N$)에 대해 셀프-어텐션 연산이 이차(O(N2)O(N^2)) 복잡도를 가지므로 고해상도 이미지 처리 시 상당한 계산 자원과 메모리를 요구합니다. 현재는 일반적으로 $224 imes 224$ 픽셀 크기의 이미지를 16x16 패치로 분할하여 약 196개의 토큰을 사용하지만, 이미지 픽셀 수가 증가하면 토큰 수는 제곱으로 증가하여 계산 비용이 감당하기 어려워집니다. 예를 들어, $1024 imes 1024$ 이미지의 경우 약 4096개의 토큰이 생성됩니다. Chae & Lee (2021, Journal of the Institute of Electronics and Information Engineers) 연구에서 패치 차원을 점진적으로 축소하여 연산량을 감소시키는 시도가 있었으나, 여전히 고해상도 이미지에 대한 효율적인 처리 문제는 남아있습니다.
    • 왜 어려운가: 이차 복잡도는 어텐션 메커니즘의 본질적인 특성에서 기인합니다. 모든 토큰이 다른 모든 토큰과의 관계를 직접 계산해야 하기 때문입니다. 이 전역적 상호작용이 ViT의 강력한 표현력의 원천이기도 하지만, 스케일업의 걸림돌이 됩니다.
    • 가장 유망한 접근 방식: 희소(Sparse) 어텐션, 선형(Linear) 어텐션, 또는 피라미드형 트랜스포머 구조(예: Swin Transformer, Pyramid Vision Transformer)를 통해 어텐션 연산의 복잡도를 줄이는 연구가 활발히 진행 중입니다. 또한, 경량화된 모델 아키텍처 설계와 지식 증류(Knowledge Distillation)를 통해 모델 크기를 줄이면서 성능을 유지하는 방법도 모색됩니다.
  2. 데이터 효율성:

    • 무엇이 해결되지 않았는가: ViT는 일반적으로 대규모 데이터셋에서 사전 학습될 때 우수한 성능을 보이며, 상대적으로 작은 데이터셋에서는 CNN 기반 모델보다 성능이 떨어지는 경향이 있습니다 (Kil et al., 2024, The Journal of Korean Institute of Information Technology). 이는 ViT가 국소적 특징 학습을 위한 강한 귀납적 편향(inductive bias)이 부족하기 때문입니다. 예를 들어, ImageNet과 같은 중간 규모 데이터셋만으로는 CNN 대비 충분한 성능을 내기 어렵습니다.
    • 왜 어려운가: CNN은 컨볼루션 필터와 풀링 레이어를 통해 이미지의 공간적 계층 구조와 국소적 특징을 효과적으로 학습하는 내재적인 능력을 갖지만, ViT는 이러한 아키텍처적 제약이 없어 초기 학습 단계에서 많은 데이터로부터 전역적인 패턴을 학습해야 합니다.
    • 가장 유망한 접근 방식: 자기지도 학습(Self-supervised Learning), 특히 마스킹된 이미지 패치 예측(Masked Image Modeling, MIM)과 같은 사전 학습 기법을 통해 대량의 레이블 없는 데이터로부터 효율적으로 일반화 가능한 특징을 학습하는 방법이 주목받고 있습니다. 또한, CNN과 ViT의 장점을 결합한 하이브리드 모델 (Chae & Lee, 2021, Journal of the Institute of Electronics and Information Engineers) 또는 트랜스포머에 CNN과 유사한 귀납적 편향을 주입하는 아키텍처 개선 연구가 진행 중입니다.
  3. 인터프리터빌리티(Interpretability) 및 편향:

    • 무엇이 해결되지 않았는가: 비전 트랜스포머는 셀프-어텐션 맵을 통해 이미지 내의 어떤 부분이 예측에 중요하게 기여했는지 시각화할 수 있지만, 복잡한 다중 레이어 어텐션과 비선형 변환으로 인해 최종 예측의 정확한 근거를 인간이 직관적으로 이해하기 어려운 경우가 많습니다. 또한, 학습 데이터셋의 편향이 모델에 그대로 반영되어 특정 인종이나 환경에 대한 편향된 예측을 할 수 있습니다 (Sim & Kim, 2024, Journal of the Korea Academia-Industrial cooperation Society).
    • 왜 어려운가: 딥러닝 모델의 인터프리터빌리티는 본질적으로 모델의 비선형성과 수많은 파라미터에서 기인하는 블랙박스 특성 때문에 어려운 문제입니다. 특히 트랜스포머는 전역적인 관계를 학습하므로 특정 픽셀이 아닌 패치 간의 관계에 기반한 판단을 내리기 때문에 특정 영역에 대한 명확한 귀속성을 파악하기 어렵습니다.
    • 가장 유망한 접근 방식: 어텐션 맵 시각화 기법을 개선하여 의미론적 중요도를 더 정확하게 파악하고, 개념 기반의 설명 가능 인공지능(Concept-based XAI)을 ViT에 적용하는 연구가 진행 중입니다. 데이터셋의 다양성을 확보하고 편향된 데이터를 필터링하는 전처리 기법 개발, 그리고 모델 학습 과정에서 공정성(Fairness)을 고려하는 정규화(regularization) 기법 도입이 필요합니다.

댓글

로그인하고 댓글을 작성하세요

불러오는 중...