그래프 신경망의 작동 원리 및 첨단 응용

2026년 4월 2일 목요일

핵심 원리

그래프 신경망(GNN)은 그래프 구조 데이터를 직접 처리하도록 설계된 인공 신경망의 한 유형입니다. 이는 노드와 엣지로 구성된 복잡한 관계를 모델링하는 데 특화되어 있으며, 각 노드의 특징을 인접 노드의 정보와 결합하여 학습하는 메시지 전달(Message Passing) 메커니즘을 기반으로 합니다.

메시지 전달은 반복적인 과정으로, 각 GNN 계층에서 모든 노드는 다음과 같은 두 단계를 거쳐 자신의 임베딩(embedding)을 업데이트합니다:

메시지 생성 (Message Generation): 각 노드 $u$는 자신의 현재 특징 $h_u^{(l)}$ 를 기반으로 이웃 노드 $v$에게 전달할 메시지 $m_{uv}^{(l)}$ 를 생성합니다. 이 메시지는 일반적으로 변환 함수 $f_m$ 를 통해 계산됩니다:
$m_{uv}^{(l)} = f_m(h_u^{(l)}, h_v^{(l)}, e_{uv})$ 여기서 $e_{uv}$ 는 엣지 $(u,v)$의 특징을 나타냅니다. 가장 간단한 형태에서는 $f_m$ 이 노드 $u$의 특징에 선형 변환을 적용하는 것일 수 있습니다.
메시지 집계 및 업데이트 (Aggregation and Update): 각 노드 $v$는 이웃 노드 $mathcal{N}(v)$ 로부터 받은 모든 메시지들을 집계하여 하나의 요약된 정보를 얻습니다. 이 집계 함수 $AGG$는 대칭적이어야 하며(이웃 노드의 순서에 불변), 일반적으로 합(sum), 평균(mean), 최대값(max) 풀링 등이 사용됩니다. 집계된 메시지 $M_v^{(l+1)}$ 는 다음과 같습니다:
$M_v^{(l+1)} = AGG({m_{uv}^{(l)} mid u in mathcal{N}(v)})$ 이후, 노드 $v$는 자신의 이전 특징 $h_v^{(l)}$ 와 집계된 메시지 $M_v^{(l+1)}$ 를 결합하여 새로운 특징 $h_v^{(l+1)}$ 를 업데이트합니다. 이 업데이트 함수 $UPD$는 종종 다층 퍼셉트론(MLP)이나 순환 신경망(RNN)으로 구현됩니다: $h_v^{(l+1)} = UPD(h_v^{(l)}, M_v^{(l+1)})$ 이러한 과정은 GNN의 계층 수만큼 반복되며, 각 계층은 인접한 $k$-hop 떨어진 노드로부터 정보를 받아들여 노드 임베딩을 점진적으로 풍부하게 만듭니다. GNN의 총 계층 수가 $K$이면, 각 노드는 $K$-hop 이웃으로부터 정보를 통합하게 됩니다. 그러나 GNN 모델의 깊이가 증가하면 과평활화(over-smoothing) 문제가 발생할 수 있습니다. 예를 들어, GNN 계층이 5~7개 이상이 되면, 멀리 떨어진 노드들도 유사한 임베딩을 갖게 되어 노드별 고유한 특징을 구별하기 어려워집니다 (Nikolentzos G et al., 2020, Neural Networks).

{"direction":"LR","nodes":[{"id":"A","label":"노드 특징 벡터 ($h_v^{(l)}$)"},{"id":"B","label":"메시지 생성 ($m_{uv}$)"},{"id":"C","label":"이웃 메시지 집계 ($M_v^{(l+1)}$)"},{"id":"D","label":"노드 특징 업데이트 ($h_v^{(l+1)}$)"}],"edges":[{"source":"A","target":"B","label":"각 노드"},{"source":"B","target":"C","label":"이웃으로 전파"},{"source":"C","target":"D","label":"자기 정보와 결합"}]}}

이 과정은 마치 마을 사람들이 소문을 주고받으며 전체 마을의 상황을 파악하는 것과 같습니다. 각 사람은 자신만의 정보(노드 특징)를 가지고 있으며, 이웃들에게 특정 방식으로 가공된 정보(메시지)를 전달합니다. 각 사람은 이웃들로부터 받은 소문들을 종합(집계)하고, 이를 자신의 기존 지식과 결합하여 새로운 이해(업데이트된 특징)를 형성합니다. 이러한 소문 교환이 여러 번 반복되면, 각 사람은 멀리 떨어진 사람들의 상황까지도 간접적으로 알게 되지만, 너무 많이 반복되면 모든 사람이 너무 비슷한 정보를 공유하게 되어 각자의 개성이 사라지는(과평활화) 문제가 발생합니다.

논문 심층 리뷰

Enzyme specificity prediction using cross-attention graph neural networks — Cui H et al. (2025), Nature

핵심 원리: 효소는 특정 기질에 대해 선택적으로 작용하는 특이성(specificity)을 가지며, 이는 효소 활성 부위의 3D 구조와 반응의 전이 상태에서 비롯됩니다. 이 연구는 효소의 기질 특이성을 예측하기 위해 교차-어텐션 기반의 SE(3)-불변(equivariant) 그래프 신경망 아키텍처인 EZSpecificity를 개발했습니다. EZSpecificity는 효소-기질 상호작용을 그래프로 모델링하고, 기질과 효소 활성 부위 간의 복잡한 3D 공간적 관계를 효과적으로 학습합니다.

모델은 다음 단계를 따릅니다:

효소 및 기질 그래프 구성: 효소와 기질을 각각 원자를 노드로, 화학 결합을 엣지로 하는 그래프로 표현합니다. 각 노드에는 원자 유형, 전하, 원자 위치(3D 좌표) 등의 특징이 부여됩니다.
SE(3)-불변 메시지 전달: EZSpecificity는 SE(3)-불변 GNN을 사용하여 메시지 전달을 수행합니다. 이는 입력 그래프가 공간에서 회전하거나 이동해도 노드 임베딩이 일관된 방식으로 변환되도록 보장하여, 분자의 3D 구조 정보를 정확하게 인코딩합니다. 각 계층에서 노드 $i$의 특징 $h_i$ 와 3D 좌표 $x_i$ 는 이웃 노드 $j$로부터의 메시지를 통해 업데이트됩니다: $h_i^{(l+1)} = phi_hleft(h_i^{(l)}, sum_{j in mathcal{N}(i)} psi_h(h_i^{(l)}, h_j^{(l)}, Vert x_i - x_j Vert^2) ight)$ $x_i^{(l+1)} = x_i^{(l)} + sum_{j in mathcal{N}(i)} (x_i - x_j) cdot psi_x(h_i^{(l)}, h_j^{(l)}, Vert x_i - x_j Vert^2)$ 여기서 $phi_h, psi_h, psi_x$ 는 학습 가능한 비선형 함수입니다. 거리 $Vert x_i - x_j Vert^2$ 는 회전 및 이동에 불변인 스칼라 값입니다.
교차-어텐션 메커니즘: 효소 그래프와 기질 그래프는 각각 독립적인 SE(3)-불변 GNN을 통해 임베딩됩니다. 이후, 교차-어텐션 메커니즘을 사용하여 효소의 활성 부위 임베딩과 기질의 전체 임베딩 간의 상호작용을 모델링합니다. 이 교차-어텐션은 효소의 특정 부위가 어떤 기질 특성에 더 집중해야 하는지를 학습합니다.
특이성 예측: 최종적으로, 결합된 효소-기질 상호작용 임베딩은 이진 분류기(또는 다중 클래스 분류기)를 통해 기질 특이성(결합 여부 또는 반응 유형)을 예측합니다.

이 메커니즘은 마치 특정 모양의 자물쇠(효소 활성 부위)에 맞는 여러 개의 열쇠(기질) 중에서 가장 잘 맞는 열쇠를 찾아내는 과정과 같습니다. GNN은 각 열쇠와 자물쇠의 복잡한 3D 형태를 학습하고, 교차-어텐션은 열쇠의 특정 돌기와 자물쇠의 특정 홈이 어떻게 상호작용하는지 미묘한 관계를 파악하여 가장 최적의 짝을 찾아냅니다.

연구 방법: SE(3)-불변 GNN과 교차-어텐션 메커니즘을 결합한 EZSpecificity 아키텍처를 사용하여 효소-기질 상호작용 데이터베이스에 대해 학습되었습니다. 손실 함수는 주로 교차 엔트로피를 사용하며, Adam 옵티마이저로 최적화됩니다.

정량적 결과:

측정항목	EZSpecificity 결과	기존 최신 모델 대비
할로게나제 특이성 예측 정확도	91.7%	58.3% 대비 33.4%p 향상

의의: 이 모델은 기존 기계 학습 모델보다 효소 기질 특이성 예측 정확도를 현저히 높여, 생물학 및 의학 분야에서 효소 관련 연구 및 응용의 효율성을 크게 개선합니다.

k-hop graph neural networks — Nikolentzos G et al. (2020), Neural networks : the official journal of the International Neural Network Society

핵심 원리: 표준 그래프 신경망(GNN)은 주로 인접한 1-hop 이웃으로부터 정보를 집계하여 노드 임베딩을 업데이트합니다. 이는 Weisfeiler-Lehman (WL) 그래프 동형성 테스트와 유사한 표현력을 가지며, 연결성(connectivity)이나 삼각형 없음(triangle freeness)과 같은 기본적인 그래프 특성을 식별하지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해, k-hop GNN은 노드의 임베딩을 업데이트할 때 직접적인 이웃뿐만 아니라 $k$-hop 떨어진 이웃으로부터 정보를 집계합니다. 이를 통해 각 노드는 더 넓은 범위의 구조적 컨텍스트를 파악할 수 있게 되어, 모델의 표현력을 향상시킵니다.

표준 GNN의 메시지 전달은 각 계층 $l$에서 노드 $v$의 특징 $h_v^{(l)}$ 을 업데이트하기 위해 1-hop 이웃 $mathcal{N}(v)$ 의 정보만 사용합니다:

h_v^{(l+1)} = sigma left( W_1 h_v^{(l)} + W_2 sum_{u in mathcal{N}(v)} h_u^{(l)} ight)

여기서

sigma

는 활성화 함수,

W_1, W_2

는 학습 가능한 가중치 행렬입니다. 그러나 k-hop GNN은 $k$번의 메시지 전달을 명시적으로 수행하거나, 혹은 각 계층에서 $k$-hop 이웃을 집계 범위로 확장하여 노드 임베딩을 업데이트합니다. 가장 직접적인 방법은 $k$개의 인접 계층을 쌓는 것이며, 이 경우 $k$ 계층 후에는 $k$-hop 정보를 얻게 됩니다. 더 정교한 k-hop GNN은 각 노드 $v$에 대해 $k$-hop 이웃

mathcal{N}_k(v)

를 명시적으로 정의하고, 이 이웃으로부터 메시지를 집계합니다:

h_v^{(l+1)} = sigma left( W_1 h_v^{(l)} + W_2 sum_{u in mathcal{N}_k(v)} h_u^{(l)} ight)

이러한 확장은 GNN이 단일 층에서 더 넓은 그래프 구조를 인지할 수 있도록 하며, WL 테스트로는 구별할 수 없는 그래프 특성들을 포착할 수 있게 합니다. 예를 들어, 1-hop GNN은 두 노드 사이에 연결이 있는지 없는지만 알 수 있지만, 2-hop GNN은 두 노드 사이에 공통 이웃이 있는지(삼각형 구조)를 파악할 수 있습니다.

이는 마치 소셜 네트워크에서 특정인의 인맥을 파악하는 것과 유사합니다. 보통 우리는 직접 아는 사람(1-hop 이웃)의 정보를 얻지만, k-hop GNN은 친구의 친구(2-hop 이웃)나 그 너머의 사람들의 정보까지도 종합적으로 고려하여 특정 인물의 사회적 위치나 특성을 더 정확하게 이해하는 것입니다. 이를 통해 특정인이 속한 커뮤니티의 특성(예: 모두가 서로 아는 사이인지)까지도 파악할 수 있게 됩니다.

연구 방법: k-hop GNN 아키텍처를 제안하고, 표준 GNN의 한계를 이론적으로 분석한 후, 노드 분류 및 그래프 분류 데이터셋에서 실험적 검증을 수행했습니다. 핵심 알고리즘은 각 노드의 표현을 업데이트할 때 1-hop을 넘어 k-hop 이웃의 정보를 집계하는 방식으로 구성됩니다.

정량적 결과:

측정항목	k-hop GNN 결과 (노드 분류)	표준 GNN 대비
Cora 데이터셋 정확도	82.5%	81.3% 대비 1.2%p 향상
Citeseer 데이터셋 정확도	71.0%	69.8% 대비 1.2%p 향상

의의: 이 연구는 GNN의 표현력에 대한 근본적인 한계를 해결하고, 더 넓은 범위의 그래프 구조를 효과적으로 학습하여 노드 및 그래프 분류 성능을 향상시키는 새로운 아키텍처를 제시했습니다.

EdgeNets: Edge Varying Graph Neural Networks — Isufi E et al. (2022), IEEE transactions on pattern analysis and machine intelligence

핵심 원리: 기존의 그래프 신경망(GNN)은 대부분 모든 노드가 이웃으로부터 정보를 집계할 때 동일한 파라미터(예: 가중치 행렬)를 공유하거나, 엣지 특징을 일률적으로 처리하는 경향이 있습니다. EdgeNets는 이러한 제약을 완화하여, 각 노드가 다른 이웃으로부터의 정보를 가중하는 데 서로 다른 파라미터를 사용하도록 허용하는 GNN 아키텍처를 제안합니다. 이는 '엣지 의존적(edge-dependent)' 가중치를 학습하여 그래프 내의 국소적(local) 세부 정보를 보다 정교하게 포착합니다.

EdgeNet의 핵심은 각 엣지 $(u,v)$에 대해 가중치 $w_{uv}$ 가 다르게 학습될 수 있다는 점입니다. 표준 GNN에서 노드 $v$의 업데이트는 다음과 같습니다:

h_v^{(l+1)} = sigma left( W^{(l)} h_v^{(l)} + sum_{u in mathcal{N}(v)} C^{(l)} h_u^{(l)} ight)

여기서

W^{(l)}

와

C^{(l)}

는 모든 노드에 공유되는 가중치 행렬입니다. 반면, EdgeNets는 엣지 및 이웃에 의존적인 가중치를 도입하여, 노드 $v$가 이웃 $u$로부터 정보를 통합할 때 사용되는 변환이 $u$와 $v$의 관계에 따라 달라질 수 있도록 합니다:

h_v^{(l+1)} = sigma left( W_v^{(l)} h_v^{(l)} + sum_{u in mathcal{N}(v)} W_{uv}^{(l)} h_u^{(l)} ight)

여기서

W_v^{(l)}

는 노드 $v$ 자신에게 적용되는 가중치,

W_{uv}^{(l)}

는 엣지 $(u,v)$에 특화된 가중치입니다. 이러한 가중치들은 노드 특징, 엣지 특징, 또는 노드 ID 등을 기반으로 동적으로 생성되거나 학습될 수 있습니다. 이를 통해 EdgeNets는 각 노드가 이웃으로부터 오는 정보의 중요도를 개별적으로 판단하고 조절할 수 있습니다. 예를 들어, 그래프 컨볼루션 신경망(GCNN)과 그래프 어텐션 네트워크(GAT)는 서로 다른 아키텍처로 여겨졌지만, EdgeNets 프레임워크 내에서 GAT는 특징으로부터 학습된 그래프에 대한 GCNN으로 해석될 수 있음이 밝혀졌습니다 (Isufi E et al., 2022, IEEE transactions on pattern analysis and machine intelligence).

이는 마치 같은 정보를 여러 사람에게 전달하더라도, 각 사람과의 관계에 따라 정보의 표현 방식이나 강조하는 부분을 달리하는 것과 유사합니다. 특정 이웃에게는 더 많은 신뢰를 주고 정보를 강하게 반영하는 반면, 다른 이웃에게는 덜 민감하게 반응하여 정보의 가중치를 조절하는 것입니다. 이러한 유연성은 국소적 특징을 더욱 섬세하게 포착하게 해줍니다.

연구 방법: EdgeNet이라는 일반적인 프레임워크를 제시하여 기존의 다양한 GNN 아키텍처들을 통합하고, 엣지 및 이웃 의존적 가중치를 통해 국소적 세부 정보를 포착하는 방식을 제안했습니다. 이 모델은 GCNN과 GAT를 통합하는 새로운 관점을 제공하며, 파라미터 공유의 장점과 한계를 분석합니다.

정량적 결과: 해당 논문은 주로 이론적 통합과 새로운 프레임워크 제안에 초점을 맞추었으며, 구체적인 정량적 결과 테이블은 제시되지 않았지만, 제안된 접근 방식이 표준 GNN과 비교하여 성능이 우수하거나 필적함을 실험적으로 확인했습니다 (Isufi E et al., 2022, IEEE transactions on pattern analysis and machine intelligence).

의의: EdgeNets는 GNN 아키텍처에 대한 통일된 관점을 제공하여 GNN의 설계 원리를 명확히 하고, 특정 응용 분야에서 파라미터 공유의 장단점을 이해하여 모델의 역량을 향상시키는 가이드라인을 제시합니다.

미해결 과제

그래프 신경망(GNN)은 많은 성공을 거두었지만, 여전히 중요한 미해결 과제들이 남아있습니다:

과평활화(Over-smoothing) 문제: GNN 모델의 깊이가 증가하면, 노드 임베딩이 서로 너무 유사해져서 노드 간의 고유한 특징을 구별하기 어렵게 됩니다. 현재 최신 모델은 대개 5~7개 계층에서 최적의 성능을 보이며, 그 이상 깊어지면 성능이 저하되는 경향이 있습니다. 이는 메시지 전달 과정에서 정보가 너무 많이 평균화되기 때문입니다. 이 문제를 해결하기 위해서는 원거리 노드 간의 정보 통합을 유지하면서도 노드별 차별성을 보존하는 새로운 집계 함수나 계층 간 연결 메커니즘이 필요합니다. 잔차 연결(residual connections)이나 어텐션 메커니즘(attention mechanisms)이 유망한 접근 방식으로 시도되고 있습니다 (Veličković P, 2023, Current opinion in structural biology).
표현력(Expressivity) 한계: 표준 GNN은 Weisfeiler-Lehman(WL) 그래프 동형성 테스트의 표현력을 넘어서지 못하며, 이로 인해 연결성이나 삼각형 없음과 같은 기본적인 그래프 특성을 식별하지 못합니다. 예를 들어, 동일한 노드 수와 엣지 수를 가진 두 개의 비동형 그래프를 GNN이 같은 것으로 판단할 수 있습니다. 이 한계는 GNN이 그래프 구조의 미묘한 차이를 포착하지 못하게 하여 복잡한 문제 해결을 어렵게 합니다. k-hop GNN과 같은 접근 방식(Nikolentzos G et al., 2020, Neural networks)은 k-hop 이웃까지 정보를 확장하여 표현력을 향상시키려 하지만, 여전히 더 높은 차원의 구조적 정보를 효율적으로 인코딩하는 방법이 필요합니다. 그래프 동형성 테스트와 동등하거나 그 이상의 표현력을 가지면서도 계산 효율적인 아키텍처 개발이 중요한 연구 방향입니다.
동적 그래프(Dynamic Graphs) 처리: 현실 세계의 많은 그래프는 시간이 지남에 따라 노드나 엣지가 추가되거나 변경되는 동적인 특성을 가집니다(예: 소셜 네트워크의 친구 관계 변화, 교통 네트워크의 실시간 혼잡도). 현재 GNN은 대부분 정적 그래프를 가정하며, 동적 변화를 효율적으로 모델링하는 데 어려움이 있습니다. 기존 모델은 매 시간 단계마다 그래프를 재구성하고 전체 모델을 재학습해야 하는 경우가 많아, 계산 비용이 매우 높습니다. 동적 그래프의 변화를 증분적으로(incrementally) 학습하고 예측하는 GNN 아키텍처가 필요하며, 특히 시공간 그래프 신경망(Spatio-Temporal GNNs) 및 동적 그래프 신경망(Dynamic GNNs) 연구가 유망한 접근 방식으로 모색되고 있습니다 (Nguyen HX et al., 2022, Sensors (Basel, Switzerland)).