[19] EsViT : Efficient Self-supervised Vision Transformers for Representation Learning #19

Dongwoo-Im · 2023-01-31T06:38:25Z

Microsoft에서 나온, Swin transformer와 같은 multi-stage ViT를 backbone으로 하고, region-based pre-training task를 추가하여 memory/연산 cost는 별로 추가되지 않은 채, self-sup 분야에서 SOTA를 달성한 논문입니다.

몰랐던 region-based 라는 새로운 개념이 제시되어 있어서 읽어보았습니다. (읽어보니 완전히 새로운 개념은 아니네요. augmentation에 기반했던 기존의 self-supervised learning이 view-level 학습에 치중되었기 때문에 dense prediction 성능이 약한 것이라고 주장합니다.)

Dongwoo-Im · 2023-02-24T16:32:03Z

Dongwoo-Im added Transformer ICLR '22 Self-supervised Learning labels Jan 31, 2023

Dongwoo-Im self-assigned this Jan 31, 2023

Dongwoo-Im mentioned this issue Feb 4, 2023

[20] SDMP : A Simple Data Mixing Prior for Improving Self-Supervised Learning #20

Open

Provide feedback