본문 바로가기

Deep learning

생성모델 비교에 왜 FID가 IS보다 비교척도로 많이 쓰일까

반응형

 

이미지 생성 모델, 특히 생성적 적대 신경망(GANs) 모델을 평가할   가지 인기있는 지표는 생성된 이미지의 품질을 평가하는  사용됩니다: 프레셰인셉션거리(FID)인셉션점수(IS).

 

각각 다른 목적을 가지고 있으며 생성된 이미지의 다른 측면을 측정합니다.

 

 

Paperswithcode 같은 논문 비교 사이트를 들어가보거나 논문의 테이블을 보면 보통 FID를 기준으로 비교 성능을 줄 세우는 것을 알 수 있습니다.

 

FID나 IS 모두 생성모델 비교에서 잘 쓰임에도 불구하고 결국 줄 세울 때는 FID를 우선으로 하는 이유가 뭘까요?

 

 

 

 

1. IS 인셉션 점수

 

 

인셉션 점수 (IS)

 

인셉션 점수는 사전 학습된 인셉션 모델 사용하여 이미지의 품질을 평가합니다. 인셉션 모델은 본래 이미지 분류 태스크를 위해 학습된 모델입니다. 인셉션 점수는 크게 두가지 점수를 고려하게 됩니다. 

 

우선 이미지의 품질입니다. 인셉션 모델은 본래 이미지 클래스 분류 예측을 위해 설계된 모델이라고 말했습니다. 만약 생성된 이미지를 인셉션 모델이 확신을 가지고 검사하고 평가할 수 있다면, 이는 좀더 클래스에 부합한 특징을 갖고 있다고 추정할 수 있습니다. 덜 흐릿하고 뚜렷하며 클래스의 특징을 잘 포함한 의미있는 객체라면 클래스 예측에 있어서 모델도 높은 점수를 부여할 것입니다. 

 

다음으로 이미지의 다양성입니다. 생성된 이미지들 간의 예측 값에서 클래스 다양성을 평가합니다. 생성모델이 다양한 이미지를 만들 수 있다면 이 또한 생성모델의 우수성을 평가하는 척도가 될 수 있습니다. 

 

 

인셉션 점수는 synthetic image에 대한 조건부 클래스의 distribution 분포와 생성된 모든 이미지에 대한 주변 클래스의 분포 사이의 the expected Kullback-Leibler divergence 즉 쿨백-라이블러 발산 지수로 계산됩니다. 

 

인셉션 점수의 가장 큰 아쉬운 점은 실제 이미지의 특징이나 분포와 비교하지 않는다는 점입니다. 만약 모델이 인셉션 분류 모델을 속일 수 있는 모델을 생성할 경우 편향된 점수를 내릴 수 있고, 오직 사전 학습된 인셉션 모델의 관점에서 다양성과 품질을 평가합니다. 

 

 

 

 

2. FID 프레셰 인셉션 거리

 

 

프레셰 인셉션 거리 (FID)

 

Frechet Inception Distance 줄여서 FID라고 불리는 척도는 인셉션 모델의 특정 레이어에서 제공하는 feature 공간에서 생성된 이미지와 실제 이미지의 분포 사이의 거리를 측정합니다.

 

FID는 이 방법으로 생성된 모델의 품질과 현실적인 특징을 포착할 수 있습니다. FID는 인셉션 모델의 feature의 통계적인 분포를 확인하고, 이를 실제 이미지와 얼마나 가까운지를 계산합니다. 그 가까운 정도를 측정하기 때문에 FID는 낮을 수록 실제 이미지와 유사하여 좋은 점수를 받게 됩니다. 거리가 가까우면 더 좋은 품질을 의미하게 됩니다. 

 

FID도 마찬가지로 인셉션 모델을 사용하지만 실제 이미지의 feature과 generated image 생성된 이미지의 feature에 의해 정의된 Fréchet distance (또는 Wasserstein-2 distance라고도 불리는 거리 척도)로 계싼됩니다. 

 

FID도 마찬가지로 아쉬운 점이 있다면 생성된 이미지와 실제 이미지 분포를 직접적으로 측정하지만 이미지 도메인에 따라 그 정확성이 달라진다고 알려져 있어 면밀한 관찰이 필요하다는 한계가 있습니다. 

 

 

 

 

3. 결론

 

 

 

요약

  • 인셉션 점수 모델이 사전학습된 인셉션 모델로 분류를 진행해 클래스의 다양성과 명확하게 분류되는 품질 등으로 명확성과 다양성을 평가합니다. 
  • 프레셰 인셉션 거리 embedded feature space 내에서 내용이나 스타일 측면에서 생성된 이미지와 실제 이미지 간의 분포를 확인합니다. 두 분포 간의 거리를 측정해 얼마나 유사한지 파악하여 이미지 품질은 물론이고 현실성도 판단할 수 있습니다. 

이런 이류로 FID는 실제 이미지와의 분포도 고려했다는 점에서 IS 보다 더 널리 사용하고, 실제로도 인간의 판단과 더 잘 일치하는 경향이 있어 자주 사용됩니다. 

 

 

그런 이유로 이러한 paperswithcode나 논문의 테이블에서도 FID를 중심으로 강조하는 이유를 알 수 있습니다. 

 

 

 

 

 

 

 

 

반응형