DINO 모델은 Self-distillation with no labels라는 학습 방법을 말한다. 2021년 Meta AI reasearch에서 발표했으며, 레이블이 전혀 없는 이미지에서 의미있는 특성을 학습하기 위한 자기지도 학습 방법을 제안했다. 핵심 아이디어는 Teacher-Student 구조를 이용한 지식 증류(Knowledge Distillation)로 Student 네트워크가 Teacher 네트워크의 출력을 예측하도록 훈련시키는 것이다.
여기서 Teacher 네트워크는 Student 네트워크의 가중치를 점진적으로 평균 낸 결과로 만들어져 안정적인 학습 목표를 제공한다. 비전 트랜스포머(Vision Transformer, ViT) 아키텍처를 기반으로 만들어졌으며, 대량의 이미지 데이터에서 강력한 시각적 표현을 학습할 수 있는 점이 특징이다....