본문 바로가기

Deep learning

Imagenet에서 이미지 생성 / class-conditional과 resolution task

반응형

 

 

 

 

 

이미지넷은 이미지 분류  기타 컴퓨터 비전 작업에 사용되는 대규모 데이터셋입니다. 수백만 장의 레이블 이미지를 포함하며,  이미지들은 수천 개의 카테고리로 분류되어 있습니다. 그리고 이미지넷을 이용한 Image generation task는 이미지넷을 학습해 해당 클래스 레이블 없이 또는 사용해서 이미지를 생성하는 태스크를 의미합니다. 

 

이 태스크는 우선 크게 class-conditional 과 unconditional, 그리고 resolution 등으로 나눠볼 수 있습니다.

 

 

 

 

Unconditional

 

Unconditional, 직역시 조건이 없는 생성은 모델이 특정한 지침이나 조건 없이 이미지를 생성하는 것을 의미합니다. 모델은 훈련 데이터셋 분포를 학습하면서 이미지를 생성하는데, 조건이 없다면 훈련 중에 본 이미지와 통계적으로 유사한 새 이미지를 생성하게 됩니다. 

 

생성 과정에서 조건이 없으므로 카테고리 없이 랜덤으로 생성된다는 특징을 가지고 있습니다. 예전 생성모델에서는 unconditional을 많이 테스트했었습니다. 하지만 조건 없는 생성은 랜덤이며 제어가 불가능해 요즘 성능이 좋은 모델들은 단순한 무조건 생성보다 조건을 주어서 생성하는 conditional task로 많이 이동한 상태입니다. 

 

 

 

 

Class-conditional 

 

Conditional 은 조건부 이미지 생성을 의미합니다. 조건부 생성은 모델이 특정한 레이블에 따라 해당 클래스가 속하는 이미지를 생성하도록 안내되는 것을 의미합니다. 

 

조건을 인식하고 해당 조건에 맞게 이미지를 생성한다는 것은 모델이 데이터 분포와 그 클래스 특성을 이해하고 있고 분류하며 활용할 줄 아는 것을 의미합니다. 또한 분류 작업 등 활용도가 높고 평가할 척도가 많아 클래스 레이블에 따른 실험 결과를 공개하는 것이 일반적입니다. 

 

사실 conditional이라하면 클래스 레이블 뿐만 아니라 텍스트나 이미지도 조건이 될 수 있습니다. 그 중 이미지넷에서 class-conditional은 카테고리를 레이블로 주는 것을 의미합니다. 이미지 넷의 실제 클래스 내의 이미지들과 비교할 수 있기 때문에 모델의 성능을 가늠하기도 좋습니다. 

 

 

 

 

Resolution 

 

 

 

paperswithcode 사이트에 가면 보이는 숫자들 256x 256, 64x64 는 모델이 생성해야 하는 이미지의 크기를 나타냅니다. 이미지는 해당 숫자 크기 만큼의 픽셀 x 픽셀 해상도를 생성하며, 숫자가 커질수록 고해상도로 더 풍부한 콘텐츠를 담는 것이 가능해집니다. 

 

하지만 고해상도로 갈수록 모델의 구조에 따라 과부하가 커지거나, 모델이 학습해야 하는 양이 무척 달라질 수 있어 각 해상도에서 잘하는 모델이 모두 같은 것은 아닙니다. 

 

 

결론으로는 Imagenet generation에서는 unconditonal 과 conditional이 있는데, 요즘 모델들은 conditional, 그 중에서도 imagnet으로 생성할 경우 class-conditional task로 모델의 성능을 측정하고 비교하게 된다. resolution 역시 256, 512 등 다양하게 존재하는 것도 알 수 있었다. 

 

 

반응형