[Study]Chapter 3. Multimodal Data Fusion Techniques
해당 챕터에서는 같이 스터디를 진행한 종원님의 발표를 기반으로 총 세가지의 융합 기술로 Early, Joint, Late Fusion을 소개합니다.
Ⅰ. Fusion Methodology
ⅰ. Early Fusion
Figure 1 : Early Fusion overview
해당 융합 방법은 멀티모달 입력 데이터를 초기(Early)에 결합하는 방식으로 단일 입력 벡터로 융합하는 방법입니다.
이러한 방법은 각 모달리티의 데이터를 단순히 연결\(_{Concat}\)하거나 각 요소별\(_{element-wise}\)로 연산하는 방법들이 존재합니다. 상대적으로 간단한 구조로 최적화, 시간 면에서 이점이 있지만 각 모달리티의 특성을 완전히 활용하기는 어렵다는 단점이 존재한다고 합니다.
ⅱ. Joint / Intermediate Fusion
Figure 2 : Joint / Intermediate Fusion overview
각 모달리티(이미지, 텍스트 등) 별로 특징을 추출해 중간에\(_{intermediate}\) 융합하는 방법입니다.
해당 방법은 똑같이 Concat 이나 element-wise 방법이 존재하며 모달리티의 고유한 특성을 보존해 모달리티 간 상호작용을 모델링한다고 합니다.
ⅲ. Late Fusion
Figure 3 : Late Fusion overview
최종 단계\(_{Late}\)에서 모달리티별 개별 출력을 융합하는 방법으로 logit fusion, result fusion 등이 존재한다고 합니다. 이러한 방법은 모달리티 별 고유한 특성을 잘 포착가능하지만 상호작용을 제대로 고려하지 않아 정보를 잃을 수 있다고 합니다.
Ⅱ. Transformer based Fusion
최근 많이 사용되는 트랜스포머를 기반으로 하는 융합 방법들을 소개합니다.
해당 방법은 이전 포스팅에서 다루었기에 간략히 하고 넘어가겠습니다.
- Early Summation (Token-wise, Weighted)
- Early Concatenation
- Hierarchical Attention(N-to-1)
- 모달리티 간의 상호작용을 중점으로 결합함
- Hierachical Attention(1-to-N)
- 모달리티 간의 상호작용을 반영하면서 단일모달 표현의 독립성을 보존합니다.
- Cross-Attention
- global context 반영 못함.
- Cross-attention to Concatenation
- global context 반영 가능.
Ⅲ. Applications
ⅰ. VisualBERT
Early Fusion방법인 트랜스포머 기반의 융합전략인 Early Concatenation의 한예로 볼 수 있습니다.
ⅱ. CLIP
Intermediate Fusion의 한 예로 각 모달리티의 특징을 추출한 후 결합하는 방식입니다.
ⅲ. Flamingo
트랜스포머 기반의 융합 전략 중 Cross-Attention의 한 예로 볼 수 있습니다.
추가적으로 이전 포스팅에 나온 내용들도 앞으로 한번 찾아봐야 겠습니다.
Ⅳ. REFERENCES