Eastk1te

[Paper]ViT : Vision Transformer

ViT는 기존의 CNN을 대체하여 이미지에 트랜스포머 아키텍처를 적용하는 milestone이기에 관련된 내용을 한번 다루어 보겠습니다. 트랜스포머 아키텍처가 사실상 NLP 작업의 표준이 되는 동안, CV에서는 제한적인 적용을 보였습니다. 이미지의 전체적인 구조를 유지하면서 어텐션 매커니즘을 컨볼루션 네트워크와 결합하거나 대체하는 방식으로 CNN에 대...