Knowledge Distillation: 지식 증류, 미리 학습된 큰 Teacher 모델을 이용하여 Student 모델을 학습함: 작은 student 모델을 사용하여 모델 압축(경량화)에 사용되기도 함: unlabeled data 에 pseudo-labeling 을 적용하기도 함 1. Unlabeled data 만 있을때label 없이 input 을 넣은 후 나온 output 을 이용하여 KL divergence loss 를 구함 ( 두 확률 분포의 차이를 계산 )이때 loss 를 이용한 역전파는 student 모델에서만 일어남 2. labeled data 가 있을때1) labeled data 를 input 으로 넣고, teacher 와 student 의 softmax(T=t) 를 거친 soft lab..