Post

[Study]Chapter 18. GNN in Computational Biology

해당 내용은 개인적으로 정리한 내용임으로 틀린 부분이 있을 수 있습니다.

I. Computational Biology

GNN으로 질병이나 단백질 문제 같이 생물학에서 세포들이 네트워크의 형태로 상호 연관되어 있어 좋은 성능을 보입니다.

단백질 구조에서 특정 질병을 유발하는 군집이 존재하는 것을 Long-standing Paradigm Local Hypothesis라고도 부르며 같은 질병에서 포함하는 단백질은 서로 상호 작용할 경향이 높다고 합니다. Corollary of Local Hypothesis로 상호작용하는 단백질의 변화는 유사한 질병을 유발한다고 합니다.

다른 이러한 이유1로 GNN이 생물학에 적합하다고 합니다.

1. Poly-Therapy

안전한 약물과 약 조합의 문제로 지식그래프에서의 다중-관계 연결 예측을 사용하여 해결합니다.

환자들은 여러 약을 복용하고 여러 가지의 복잡한 질병에 걸립니다. 따라서, 여러 질병에 대해 처방된 약들은 기대하지 않은 약 성분의 상호작용으로 부작용이 발생할 수 있습니다.

이러한 약 조합문제는 조합의 폭발성과 독립적이지 않은 약들의 상호작용으로 인해 약 조합의 정보가 현저히 적습니다. 그래서 이러한 약 조합 문제를 모델링으로 해결할 필요성이 있습니다. 약 조합의 정보가 없다.

위의 약 조합 문제는 Polypharmacy knowledge graph로 나타낼 수 있으며, 이러한 문제는 아래의 Figure 17처럼 Decagon2이라 불리는 모델을 사용하여 해결할 수 있습니다.

18-17 Figure 17 : Decagon = Encdoer + Decoder

Multirelational Graph Encoder로 각 노드의 계산 그래프가 다른 아키텍처의 신경망으로 결정하는 것이 핵심이다. 이전 레이어의 임베딩과 결합한 정규화 하거나 오늘날에는 어텐션 매커니즘등으로 변경할 수 있따.

18-1 Figure 1 : 이웃들의 각 edge-type 별 이전층 임베딩을 집계하여 각 타입별로 다른 아키텍처의 신경망을 사용하게 함.

아래의 Figure 2 처럼 두 노드의 임베딩을 입력으로 받아 새 관계가 반견될 가능성을 예측합니다.

18-2 Figure 2 : heterogeneous edge decoder

18-3 Figure 3 : 디카곤 모델이 다른 모델들 보다 좀 더 잘 예측하는 결과를 보여줬다

이렇게 만들어진 딥러닝 모델들은 2012년 이전의 데이터로 학습하여 예측한 조합들의 부작용이 유효한 효과를 나타내는 것을 확인할 수 있었습니다.

2. Subgraph embeddgings

질병 분류\(_{Disease-Diagnosis}\) 문제로 phenotype을 유전자 사이의 상호작용 특징을 식별이 가능합니다. 따라서, phenotype 연결의 집단을 질병으로 모델링해 현재 증상에 기반한 질병 진단을 수행합니다.

이러한 문제를 형식화하면 phenotype 연결의 집단을 부분 그래프 임베딩으로 학습해 부분 그래프의 topology를 보존하는 가능도를 임베딩 차원에서 최대화하는 것입니다.

부분 그래프는 다음과 같은이유로 다양한 크기의 구조에서 예측할 필요가 있습니다. k-hop 이웃들이 아닌 부분 그래프의 표현과 집단 내와 집단 간의 연결 패턴을 GNN에 주입하는 방법이 주요 과제입니다. 이러한 과제는 부분 그래프의 특성인 특정 그래프의 지역화와 다양한 지역 이웃에 나누어주는 특성으로 해결이 가능합니다.

  • SubGNN : Subgraph Neural Network

    그래프의 canonical task(노드, 링크, 그래프 예측 등)와 다르게 부분 그래프 예측 학습 task의 정의로 놓을 수 있습니다.

    1. 그래프에서 메시지를 앵커에서 부분그래프로 부분 그래프에서 임베딩으로 계층적인 방법으로 전달합니다.
    2. 부분그래프의 topolgy를 수집하는 3개의 채널(위치, 이웃, 구조)을 통한 메시지 경로를 임베딩으로 보냅니다.

18-4 _Figure 4 : Property-aware routing; SubGNN은 position, neighborghood, structre의 세개의 채널로 구성되어 있으며 부분그래프 topology의 다른 측면을 잘 수집한다고 볼 수있습니다. _

3. Few-shot learning for graphs

약을 개발하는 과정은 반복적인 개발과 임상 실험을 지나 승인까지 수개월이 걸립니다. 따라서, 이렇게 복잡한 과정없이 효과적으로 질병을 치료하는 약(ex. 비아그라)을 만드는 것은 이전의 개발된 수 많은 약중에서 새로운 목적을 위해 적용하는 것이라 많은 연구가 이루어지고 있다고 합니다.

어떤 약이 어떤 질병을 치료하는 지는 그래프로서 표현이 가능하고 새로운 현상을 일반화하기 위해 부족한 label 정보를 풍부하게 만드는 것이 탁월한 방법입니다.

Background of Meta-learning

메타 러닝 모델은 다양한 학습 task에서 학습되고, task에 대한 분포에서 본적없는 task를 포함하는 최고의 성능을 최적화합니다. 각 테스트 dataset에 연관되어 있고, 특징 벡터와 실제 라벨을 포함하고 있습니다.

\[\theta^* = \arg\min\limits_{\theta}\mathbb{E}_{D\sim p(D)}[\mathcal{L}_\theta(D)]\]

위의 공식은 일반적인 학습 task와 유사하게 보이나 하나의 데이터 샘플로 하나의 데이터셋을 고려한다는 점에서 다릅니다.

Background of Few-shot-learning

위에 설명한 메타러닝의 구체적인 사례로 지도 학습 영역으로 K-shot N-class 분류는 각 N 클래스의 K 라벨된 예제를 뜻합니다. 예를 들어, 3가지 분류모델이 있고 각 2장의 예제만 가지고 있을때, few-shot learning은 새로운 라발에서 예측을 수항핼 수 있게 만듭니다. 이러한 모델은 소수의 라벨만을 가진 상황에서라도 예측이 가능하다는 특징을 같습니다.

G-Meta3

메타 러너는 같은 그래프에서 다른 라벨집합을 보기 위해 본적없는 라벨의 집합이 필요합니다. 각 태스크에서는 동일한 그래프에서 라벨이 다른 노드 또는 엣지의 배치가 이루어집니다. 이는 메타러너가 다양한 라벨 집합에서의 작업을 학습하고 일반화할 수 있도록 하는 방법 중 하나입니다.

주된 아이디어는 지역 부분 그래프로 신경망의 통로는 전체그래프가 아닌 부분그래프를 통해 그 경로가 결정된다는 것입니다. 이러한 부분 그래프의 특징 함수는 부분 그래프 구조를 GNN에 입력으로 전달하기 위한 효과적인 매핑을 학습합니다. 각 부분 그래프가 전체 작업에 어떻게 기여하는지를 학습하여 효율적인 작업 분배를 달성합니다.이러한 전략의 배포는 GNN을 few-shot link prediction을 학습하는 것입니다.

GNN의 힘은 라벨 전파와 구조 유사성이라는 두가지 소스에서 나옵니다. 라벨 전파는 같은 라벨을 가진 노드는 그래프에서 근처에 존재할 것이고, 구조 유사성은 같은 라벨을 가진 노드는 이웃과 유사한 네트워크 구조를 가진다는 것입니다. 라벨이 적다면 라벨 전파는 충분하지 못해 몇 안되는 노드들이 label되어 있을때 전체 그래프를 통해 효과적으로 label을 전달하는데 힘들 것입니다. 이러한 그래프 수준의 임베딩은 큰 그래프의 구조를 수집하지 못합니다.

따라서, 더 좋은 영향력을 가진 구조적인 동치를 얻기위해 지역 부분 그래프가 필요합니다. G-meta는 보조 부분 그래프의 가까운 포인트를 사용하여 쿼리 부분 그래프를 식별하는 메트릭을 학습합니다. 이는 쿼리 부분 그래프의 임베딩과 비교하여 보조 부분 그래프를 임베딩함으로써 이루어집니다.

Theoretical motivation

목표 노드에 대한 노드의 영햑력은 목표로 다가갈수록 지수적으로 감소하는 노드 영향의 속성과 지역 부분 그래프 주변의 목표 노드는 전체 그래프에서 근처에 있는 연관된 특징 정보를 보존하는 이론들이 G-Meta의 이론적 배경이 되었습니다.

18-5 Figure 5 : Network Medicine Framework4, 코로나 바이러스의 단백질구조를 표현했고 AP-MS의 332개의 인간 단백질에서 바이러스의 단백질 결합을 식별했습니다.

II. AliGraph : An Extremely Large Scale Graph Representation Learning

알리바바에서는 많은 왜 그래프와 그래프 임베딩을 사용할까요?

그래프 계산 모델은 큰 데이터 회사에서 매우 유명하고 실제 문제들에 사용된다고 합니다. 전통적으로 추천시스템은 유저와 아이템간의 bipartite graph이지만 그래프의 목적함수는 글로벌 최적화와 조건부독립 최적화 사이에서 더 일반적으로 작동합니다. 즉, 전체적인 최적화를 추구하는 동시에 주어진 조건 하에서 독립적인 문제들도 최적화하는 방식을 취합니다.

그래프 임베딩은 딥러닝과 그래프 계산을 통합하여 end-to-end 학습을 가능하게 만들어 순수한 딥러닝이 해결하기 어려운 귀납적인 추론문제를 해결하였습니다.

1. Graph embedding

  • Fraud detection

    18-6 Figure 6 : Fraud detection; 가짜 탐지에서의 임베딩.

  • Entity recognize

    18-7 Figure 7 : 엔티티 인식에서의 그래프 임베딩

2. GNN Framework

  • GNN Framework Algorithm

    18-8 Figure 8 : GNN Framework Algorithm; feature vector x가 주어졌을때 그래프 임베딩을 출력

    18-9 Figure 9 : GNN Framework Algorithm visualzation

3. Algorithm Warehouse

  • Sampling

    18-16 Figure 16 : Sampling Algorithm5; (좌) 셀프 정규화로 타입-융합 전략 학습 (우) 타입-의존 전략

  • Multiplex

    18-10 Figure 10 : ANRL:Attrreibuted Network representation learning via deep Neural Networks.

  • Mixtrue

    18-11 Figure 11 : GNN Is a Single vector enough? exploring node polysemy for network embedding

  • Hierachical GNN

    18-12 Figure 12 : Hierachical GNN

  • Evolving GNN

    18-13 Figure 13 : Large Scale Evolving Graphs with burst detection

  • beyesian GNN

    18-14 Figure 14 : beyesian GNN

  • Overview of Algorithm warehouse

    18-15 Figure 15 : Overview of Algorithm warehouse

이후 멀티-모달리티와 타이틀 자동생성, 거대한 그래프의 베이지안 신경망, 여러 속성이 있는 네트워크의 그래프 임베딩 및 추론 등의 중점을 두고 있다고 이야기했습니다.



This post is licensed under CC BY 4.0 by the author.