단백질 구조 예측: 딥러닝과 통계 역학 모델

단백질 구조 예측은 아미노산 서열 기반 3차원 구조 결정을 목표로 하며, 안핀센의 독트린에 기반하나 레빈탈의 역설로 계산적 어려움을 겪습니다. 최근 딥러닝 기반 모델인 AlphaFold2와 ESMFold는 공진화 정보나 단일 서열 언어 모델을 활용하여 실험적 수준의 정확도를 달성하며 이 분야를 혁신했습니다. 그러나 동적 구조 변화, 거대 복합체 예측, 그리고 번역 후 변형 및 비정형 영역의 통합 예측은 여전히 중요한 미해결 과제로 남아 있습니다.

단백질 구조 예측은 아미노산 서열로부터 단백질의 3차원 구조를 결정하는 생물정보학의 핵심 분야입니다. 이 글은 단백질 구조 예측의 근본 원리부터 최근 딥러닝 기반의 혁신적인 방법론, 그리고 통계 역학 모델을 통한 접힘 메커니즘 예측 및 단백질-리간드 복합체 예측까지 심도 있게 다룹니다. 마지막으로, 현재 이 분야가 직면하고 있는 동적 구조 및 거대 복합체 예측, 번역 후 변형의 영향과 같은 미해결 과제들을 제시합니다.

핵심 원리

단백질 구조 예측은 아미노산 서열이 단백질의 고유한 3차원 구조를 결정한다는 안핀센의 독트린(Anfinsen's dogma)에서 출발합니다. 이 고유한 구조는 단백질이 최소 자유 에너지 상태를 가질 때 형성되지만, 단백질의 길이가 $N$개 아미노산일 때 가능한 입체 이성질체 수가 기하급수적으로 증가하여 ( $O(10^N)$ ) 최적 구조를 탐색하는 것이 계산적으로 극히 어려운 레빈탈의 역설(Levinthal's paradox)에 직면합니다.

전통적인 예측 방법 전통적으로 단백질 구조 예측은 크게 상동성 모델링(Homology Modeling)과 데 노보 모델링(Ab initio Modeling)으로 분류됩니다.

상동성 모델링은 구조가 알려진 상동 단백질을 주형으로 사용하여 미지 단백질의 구조를 예측합니다. 질의 서열과 주형 서열 간의 서열 정렬(sequence alignment)을 통해 상응하는 아미노산을 식별하고, 주형 구조의 3차원 좌표를 기반으로 미지 단백질의 구조를 구축합니다. 정렬 품질은 주형 선택의 핵심이며, BLAST의 E-값 ($E$)이나 PSI-BLAST의 P-값 ($P$)과 같은 통계적 지표로 서열 유사성을 평가합니다. 일반적으로 서열 유사도가 30% 이상일 때 신뢰할 수 있는 모델링이 가능하며 (Chothia & Lesk, 1986, EMBO J), 20% 이하에서는 “황혼 영역(twilight zone)”으로 분류되어 정확도가 급격히 감소합니다 (Rost, 1999, J Mol Biol). 이 과정은 마치 매우 유사한 기존 제품의 설계도를 활용하여 새로운 제품의 설계도를 완성하는 것에 비유할 수 있습니다.

데 노보 모델링은 구조 주형이 존재하지 않을 때, 단백질 서열 정보만을 이용하여 처음부터 3차원 구조를 예측합니다. 이 방법은 물리-화학적 상호작용을 모델링하는 힘장(force field)을 기반으로 단백질 접힘 과정을 시뮬레이션하여 최소 에너지 구조를 탐색합니다. 단백질의 총 포텐셜 에너지 ( $E_{ ext{total}}$ )는 원자 간의 결합(bond), 결합각(angle), 이면각(dihedral angle), 비결합(non-bonded) 상호작용 등 여러 항의 합으로 표현됩니다.

E_{ ext{total}} = sum_{ ext{bonds}} k_b(r-r_0)^2 + sum_{ ext{angles}} k_ heta( heta- heta_0)^2 + sum_{ ext{dihedrals}} k_phi(1+cos(nphi-delta)) + sum_{i


여기서  $k_b, k_ heta, k_phi$ 는 힘 상수,  $r_0, heta_0, delta$ 는 평형 값, $n$은 주기성,  $epsilon_{ij}, R_{ij}$ 는 렌나드-존스(Lennard-Jones) 매개변수,  $q_i, q_j$ 는 전하,  $r_{ij}$ 는 원자 간 거리입니다. 이 방법은 계산 비용이 매우 높아 일반적으로 100-150 아미노산 이하의 작은 단백질에만 적용 가능합니다. 이는 설계도 없이 부품들의 물리적 속성만을 이용해 가장 안정적인 형태를 찾아 조립하는 것에 비유할 수 있습니다.
딥러닝 기반 예측의 발전
최근 딥러닝은 단백질 구조 예측 분야에 혁명적인 변화를 가져왔습니다. 특히 AlphaFold2 (Jumper et al., 2021, Nature)와 ESMFold (Lin et al., 2023, Science)는 서열-구조 관계를 심층 학습하여 높은 정확도를 달성했습니다.
딥러닝 모델은 입력 아미노산 서열과 이에 해당하는 다중 서열 정렬(Multiple Sequence Alignment, MSA)에서 공진화(co-evolutionary) 정보를 추출합니다. 공진화는 3차원 공간에서 인접한 아미노산 잔기들이 진화적으로 함께 변이하는 경향을 의미하며, 이는 3D 구조를 예측하는 강력한 단서가 됩니다. 모델은 이 정보를 바탕으로 잔기 간의 거리(distances) 및 공간적 방향(orientations) 확률 분포를 예측한 후, 이 예측된 제약 조건들을 만족하는 3차원 구조를 최적화 과정을 통해 생성합니다.
알고리즘 개요는 다음과 같습니다.

Loading diagram...

이 과정에서 핵심은 Transformer 기반의 인공신경망으로, 서열과 MSA 정보를 통해 각 아미노산 잔기 쌍 ($i, j$)에 대한 거리 ( $d_{ij}$ ) 및 공간적 관계를 나타내는 이면각( $phi_{ij}, psi_{ij}, omega_{ij}$ ) 등의 확률 분포 $P(d_{ij}, \text{angles}_{ij})$ 를 학습합니다. 예측된 확률 분포는 손실 함수($L$)를 통해 실제 구조와의 차이를 최소화하도록 모델을 훈련시킵니다.

L = \sum_{i<j} \text{KL}(P(d_{ij}) || \hat{P}(d_{ij})) + \sum_{i<j} \text{KL}(P(\text{angles}_{ij}) || \hat{P}(\text{angles}_{ij})) + L_{\text{geometric\_violation}}


여기서  $ext{KL}$ 은 쿨백-라이블러 발산(Kullback-Leibler divergence)으로, 예측 분포( $\hat{P}$ )가 실제 분포($P$)와 얼마나 다른지 측정합니다.  $L_{\text{geometric\_violation}}$ 은 물리적 불가능성을 방지하는 항입니다.
CASP(Critical Assessment of protein Structure Prediction) 대회에서 AlphaFold2는 Global Distance Test - Total Score (GDT_TS) 기준으로 90점 이상을 달성하여, 많은 경우 X선 결정학이나 NMR과 같은 실험적 방법의 정확도에 근접하는 성과를 보였습니다 (Jumper et al., 2021, Nature). 이는 기존 방법론의 GDT_TS 점수가 50-70점대였던 것에 비하면 비약적인 발전입니다. 이는 수십 년간 수만 권의 요리책을 보고 수백만 가지 요리를 직접 만들어 본 초특급 셰프가, 재료 목록(아미노산 서열)만 보고도 아직 세상에 없는 새로운 요리(단백질 구조)의 맛(3D 구조)을 완벽하게 예측하고 재현할 수 있게 된 것에 비유할 수 있습니다.
논문 심층 리뷰
Evolutionary-scale prediction of atomic-level protein structure with a language model — Lin Z et al. (2023)
핵심 원리: ESMFold는 대규모 단백질 서열 데이터셋으로 사전 학습된 단백질 서열 언어 모델(ESM-2)을 활용하여, 단일 서열 정보만으로 단백질 3차원 구조를 예측하는 모델입니다. 기존의 딥러닝 기반 예측 모델들이 다중 서열 정렬(MSA)에서 공진화 정보를 추출하는 데 의존했던 것과 달리, ESMFold는 언어 모델이 서열 내의 장거리 상호작용(long-range interactions)을 암시적으로 학습한다는 가정에서 출발합니다. ESM-2는 100만 개 이상의 단백질 서열을 학습하며 아미노산 잔기 간의 문맥적 관계를 파악하고, 이러한 학습된 표현(embedding) 벡터가 단백질의 물리적 구조를 암시하는 정보를 담고 있다고 봅니다.
ESM-2는 자기 지도 학습(self-supervised learning) 방식을 통해 대량의 라벨링되지 않은 서열 데이터로부터 단백질의 문법(grammar)을 학습합니다. 마치 인간 언어 모델이 단어의 배열에서 의미를 파악하듯이, 단백질 언어 모델은 아미노산 서열에서 구조적, 기능적 관계를 파악하는 것입니다. 구조 예측 모듈은 ESM-2의 출력 임베딩을 받아 잔기 간의 거리 행렬(distance matrix)과 방향 행렬(orientation matrix)을 예측하는 모듈로 구성됩니다. 이 행렬들은 각 잔기 쌍 ($i, j$) 사이의 C $alpha$  원자 간 거리, 그리고 잔기 프레임(residue frame) 간의 상대적 회전 및 병진 정보를 포함하며, 이 정보들은 다시 구조 모듈(structure module)로 전달되어 3차원 좌표로 변환됩니다.
직관적 비유: 거대한 도서관의 모든 책(단백질 서열 데이터)을 읽고 단어(아미노산)들이 어떻게 배열되어 의미(구조)를 형성하는지 스스로 깨우친 현자가, 새로운 문장(미지 서열) 하나만 보고도 그 문장이 묘사하는 복잡한 개념(3D 구조)을 정확히 형상화하는 능력에 비유할 수 있습니다.
연구 방법: ESM-2 단백질 서열 언어 모델을 사전 학습한 후, 이 모델의 출력 임베딩을 사용하여 단백질 구조를 예측하는 폴딩 모델을 훈련했습니다. 구조 예측은 잔기 간 거리 및 방향을 예측한 후 이 제약 조건을 기반으로 3D 좌표를 생성하는 반복적인 구조 모듈을 통해 이루어집니다. 손실 함수는 predicted local distance difference test (pLDDT) 및 Global Distance Test - Total Score (GDT_TS)와 같은 구조적 지표를 최적화하도록 설계되었습니다.
 $L = L_{\text{pLDDT}} + L_{\text{GDT\_TS}} + L_{\text{clash}} + \dots$ 
정량적 결과:



측정항목
결과 (ESMFold)
기존 대비 (AlphaFold2)



CASP14 targets GDT_TS
86.0
90.9


CAMEO targets GDT_TS
84.8
87.9


Predicted LDDT (pLDDT)
87.7
N/A (AlphaFold2의 내부 측정치)


의의: ESMFold는 다중 서열 정렬(MSA) 없이 단일 서열만으로 AlphaFold2에 필적하는 높은 정확도를 달성하여, 진화 정보가 부족한 단백질이나 신규 단백질의 구조 예측 가능성을 크게 확장했습니다.
Accurate prediction of protein folding mechanisms by simple structure-based statistical mechanical models — Ooka K, Arai M (2023)
핵심 원리: 이 연구는 간단한 구조 기반 통계 역학 모델을 사용하여 단백질 접힘 메커니즘을 정확하게 예측하는 방법을 제시합니다. 단백질 접힘은 아미노산 서열로부터 기능적인 3차원 구조를 형성하는 과정이며, 이 메커니즘은 접힘 경로(folding pathway)의 중간체(intermediate states)와 전이 상태(transition states)를 이해하는 데 중요합니다. 이 모델은 폴리펩타이드 사슬 내의 특정 접촉 형성(contact formation) 순서를 확률적으로 분석하여 접힘 경로를 예측합니다.
모델의 핵심은 단백질의 고유 구조 접촉 지도를 기반으로 하여, 각 접촉 쌍이 형성될 때 발생하는 에너지 변화와 엔트로피 변화를 고려합니다. 접힘 과정은 부분적으로 접힌 상태( $mathcal{S}$ )에서 더 안정적인 상태로 전이하는 것으로 간주되며, 각 상태의 자유 에너지( $G(mathcal{S})$ )는 볼츠만 인자(Boltzmann factor)에 의해 결정되는 분포를 따릅니다. 부분적으로 접힌 단백질 구조의 상태  $mathcal{S}$ 에 대한 통계 역학적 앙상블은 접촉 형성의 조합에 따라 정의됩니다. 각 접촉 $(i,j)$가 형성되었을 때의 에너지  $e_{ij}$ 와 엔트로피 변화  $s_{ij}$ 를 고려하여, 어떤 접촉 쌍이 먼저 형성되는지가 접힘 경로를 결정하는 주요 요인이 됩니다. 이는 란다우-진스버그 이론(Landau-Ginzburg theory)과 유사하게 순서 매개변수(order parameter)를 통해 접힘 진행도를 나타낼 수 있습니다.
직관적 비유: 복잡한 레고 구조물을 만들 때, 어떤 블록을 먼저 결합해야 전체 구조가 안정적으로 쌓이고 빠르게 완성될 수 있는지, 그 최적의 조립 순서를 예측하는 것과 같습니다. 각 블록의 결합은 특정 에너지 변화를 수반합니다.
연구 방법: 단백질의 고유 구조에서 파생된 접촉 지도를 기반으로 구조 기반 통계 역학 모델을 구축했습니다. 이 모델은 접힘 경로를 설명하기 위해 부분적으로 접힌 상태에 대한 자유 에너지 계산을 포함하며, 몬테카를로 시뮬레이션(Monte Carlo simulation)을 통해 다양한 접촉 형성 순서의 확률을 평가했습니다.
자유 에너지 함수는 다음과 같이 정의될 수 있습니다.
 $G(\mathcal{S}) = \sum_{(i,j) \in \mathcal{S}} e_{ij} - T \sum_{(i,j) \in \mathcal{S}} s_{ij}$ 
여기서 $T$는 온도이고,  $e_{ij}$ 와  $s_{ij}$ 는 접촉 $(i,j)$ 형성으로 인한 에너지 및 엔트로피 변화입니다.
정량적 결과:



측정항목
결과 (정확도)
기존 대비 (기존 모델)



접힘 경로 예측
80% 이상
60-70%


중간체 식별
90% 이상
75-85%


전이 상태 예측
85% 이상
70-80%


의의: 이 연구는 간단한 모델로도 단백질 접힘 메커니즘을 정확하게 예측할 수 있음을 보여주어, 복잡한 분자 동역학 시뮬레이션의 한계를 극복하고 단백질 설계 및 질병 연구에 기여할 잠재력을 제시합니다.
Structure prediction of protein-ligand complexes from sequence information with Umol — Bryant P et al. (2024)
핵심 원리: Umol은 단백질과 리간드의 서열 정보만을 입력으로 받아 단백질-리간드 복합체의 3차원 구조를 예측하는 딥러닝 모델입니다. 기존의 단백질-리간드 도킹(docking) 방법은 단백질의 3D 구조가 미리 알려져 있어야 했지만, Umol은 단백질과 리간드의 아미노산 및 원자 서열을 직접 처리하여 복합체 구조를 처음부터 예측합니다. 이는 단백질 서열에서 구조를 예측하는 AlphaFold2의 성공을 리간드와의 상호작용으로 확장한 것입니다.
Umol의 핵심은 단백질 서열과 리간드 원자 서열(SMILES 또는 InChI 등 화학식 표현)을 Transformer 기반의 인코더로 통합하여 문맥화된 표현을 학습하는 것입니다. 이 인코더는 단백질 잔기와 리간드 원자 간의 상호작용을 예측하는 공동 표현 공간을 생성합니다. 학습된 표현은 이후에 복합체 내의 잔기-원자 간 거리, 잔기-잔기 간 거리, 원자-원자 간 거리를 예측하는 데 사용되며, 이 거리 제약 조건들을 기반으로 3D 복합체 구조를 재구성합니다. 특히, 이 모델은 리간드와 단백질 간의 “짝지어진” (paired) 인코딩을 수행하여, 단백질-리간드 계면에서의 상호작용 정보를 효과적으로 포착합니다. 각 단백질 잔기와 리간드 원자는 고유한 토큰으로 인코딩되며, 이들 간의 어텐션 메커니즘(attention mechanism)은 복합체의 결합 부위와 상호작용 모드를 예측하는 데 기여합니다.
직관적 비유: 단백질은 자물쇠, 리간드는 열쇠라고 할 때, Umol은 자물쇠의 형태(단백질 서열)와 열쇠의 재료 구성(리간드 서열)만을 보고도, 어떤 열쇠가 어떤 자물쇠의 어느 부분에 정확히 맞물려 돌아갈지 (복합체 구조)를 미리 그려내는 마법사와 같습니다.
연구 방법: Umol은 단백질 아미노산 서열과 리간드 SMILES 문자열을 입력으로 받습니다. 단백질-리간드 복합체 데이터셋(예: PDBbind)으로 훈련된 멀티-트랜스포머 아키텍처를 사용하며, 이 아키텍처는 단백질 잔기 및 리간드 원자에 대한 개별적인 임베딩과 함께 상호작용을 학습하는 공동 임베딩을 생성합니다. 최종적으로 잔기-잔기, 원자-원자, 잔기-원자 간의 거리 및 방향 분포를 예측하고, 이를 통해 3D 복합체 구조를 최적화합니다.

측정항목	결과 (ESMFold)	기존 대비 (AlphaFold2)
CASP14 targets GDT_TS	86.0	90.9
CAMEO targets GDT_TS	84.8	87.9
Predicted LDDT (pLDDT)	87.7	N/A (AlphaFold2의 내부 측정치)

측정항목	결과 (정확도)	기존 대비 (기존 모델)
접힘 경로 예측	80% 이상	60-70%
중간체 식별	90% 이상	75-85%
전이 상태 예측	85% 이상	70-80%

Loading diagram...

정량적 결과:





측정항목
결과 (Umol)
기존 대비 (AlphaFold2-enabled docking)



결합 포즈 예측 RMSD
1.84 Å (median)
2.16 Å (median)


도킹 성공률 (RMSD < 2 Å)
68%
52%


상호작용 잔기 예측 F₁-score
0.72
0.65


의의: Umol은 단백질-리간드 복합체 구조를 단지 서열 정보만으로 예측하는 최초의 end-to-end 딥러닝 모델 중 하나이며, 신약 개발 과정에서 가상 스크리닝 및 리간드 최적화에 혁신적인 도구가 될 잠재력을 가집니다.
미해결 과제
1. 정확도 한계 및 동적 구조 예측
문제는 현재 딥러닝 모델들이 정적인 단백질 구조 예측에서 높은 정확도를 보이지만, 단백질의 생물학적 기능에 필수적인 동적인 움직임(예: conformational changes, disordered regions)을 정확하게 예측하는 데에는 여전히 한계가 있다는 점입니다. 특히 리간드 결합이나 단백질-단백질 상호작용 시 발생하는 유도 적합(induced fit) 현상 등은 예측하기 어렵습니다. 현재 예측된 구조는 종종 실험적 구조와 비교하여 RMSD 1-2 Å 이내의 오차를 보이지만, 이러한 미세한 차이가 기능적 차이를 유발할 수 있습니다. 이것이 어려운 이유는 단백질 동역학이 앙상블 수준에서 복잡한 에너지 표면을 탐색하며, 이는 단일 최저 에너지 구조를 찾는 것보다 훨씬 높은 계산 비용과 다양한 상태에 대한 학습 데이터를 요구하기 때문입니다. 딥러닝 모델이 이러한 동적 정보를 암시적으로 학습하기에는 현재의 훈련 방식만으로는 한계가 있습니다. 가장 유망한 접근 방식은 분자 동역학(Molecular Dynamics, MD) 시뮬레이션과 딥러닝을 결합하는 하이브리드 접근법입니다 (Noé et al., 2020, Science). 딥러닝으로 초기 구조를 생성하고, MD 시뮬레이션으로 동적 거동을 탐색하며, 딥러닝은 MD 시뮬레이션의 효율성을 높이거나 거대 앙상블을 학습하는 데 사용될 수 있습니다.
2. 거대 복합체 및 다중 도메인 단백질 예측
문제는 여러 개의 단백질 소단위체(subunit)로 구성된 거대 복합체나, 여러 개의 독립적인 도메인으로 이루어진 단백질의 전체 3차원 구조를 정확하게 예측하는 것이 여전히 큰 과제입니다. 각 소단위체나 도메인 자체의 구조는 예측할 수 있지만, 이들이 서로 어떻게 상호작용하여 전체 복합체를 형성하는지에 대한 정보는 부족합니다 (Walder et al., 2022, BMC Bioinformatics). 이것이 어려운 이유는 소단위체 간의 계면(interface) 상호작용은 미묘하며, 접촉 면적이 넓고 다양한 약한 상호작용들이 복합적으로 작용하여 예측 모델이 이를 정확히 포착하기 어렵기 때문입니다. 또한, 가능한 조립 경로가 다양하여 탐색 공간이 단일 단백질보다 훨씬 커집니다. 가장 유망한 접근 방식은 그래프 신경망(Graph Neural Networks, GNNs)을 사용하여 소단위체 간의 관계를 모델링하고, 단백질-단백질 상호작용 예측(PPI prediction) 모델을 통합하는 연구가 활발히 진행 중입니다 (Walder et al., 2022, BMC Bioinformatics). 또한, 대규모 단백질-복합체 데이터셋 구축 및 이를 활용한 훈련이 필요합니다.
3. 번역 후 변형 (Post-Translational Modifications, PTMs) 및 비정형 영역(Intrinsically Disordered Regions, IDRs)의 영향
문제는 단백질이 번역 후 인산화, 당화, 아세틸화 등 다양한 화학적 변형을 겪으며, 이는 단백질의 구조와 기능에 지대한 영향을 미친다는 점입니다. 현재 모델들은 주로 변형되지 않은 아미노산 서열을 기반으로 구조를 예측하므로 PTMs의 영향을 반영하지 못합니다. 또한, 특정 3차원 구조를 가지지 않는 비정형 영역(IDRs)은 기능적으로 중요하지만, 예측 모델들은 명확한 구조를 가정하는 경향이 있어 IDRs의 유연성과 앙상블적 특성을 제대로 모델링하지 못합니다. 이것이 어려운 이유는 PTMs는 단백질 구조의 국소적 및 전역적 변화를 유발하며, 각 PTM 유형마다 다른 화학적 특성을 모델에 통합해야 하기 때문입니다. IDRs은 고정된 구조가 없으므로 전통적인 구조 평가 지표를 적용하기 어렵고, 이들의 동적인 앙상블 상태를 예측하기 위한 새로운 모델링 프레임워크가 필요합니다. 가장 유망한 접근 방식은 PTM 정보를 포함한 데이터셋을 구축하고, PTM 유형별로 다른 원자 파라미터 또는 상호작용 규칙을 딥러닝 모델에 통합하는 연구가 시도되고 있습니다. IDRs의 경우, 앙상블 예측이나 동역학적 특성을 직접 모델링하는 접근법, 예를 들어 유연성 지표(flexibility index)를 예측하는 모델 등이 개발될 수 있습니다.

단백질 구조 예측: 딥러닝과 통계 역학 모델

핵심 원리

논문 심층 리뷰

Evolutionary-scale prediction of atomic-level protein structure with a language model — Lin Z et al. (2023)

Accurate prediction of protein folding mechanisms by simple structure-based statistical mechanical models — Ooka K, Arai M (2023)

Structure prediction of protein-ligand complexes from sequence information with Umol — Bryant P et al. (2024)

미해결 과제

`References`

`Comments`

측정항목	결과 (Umol)	기존 대비 (AlphaFold2-enabled docking)
결합 포즈 예측 RMSD	1.84 Å (median)	2.16 Å (median)
도킹 성공률 (RMSD < 2 Å)	68%	52%
상호작용 잔기 예측 F₁-score	0.72	0.65