본문 바로가기

반응형

전체 글

(130)
대규모 언어모델의 Training compute / 구성요소 "Training compute"라는 용어는 제와 같은 대규모 언어 모델(LLMs)에 있어서 훈련 단계 동안 사용되는 계산 리소스와 파워를 의미합니다. 대규모 언어 모델을 훈련시키는 과정은 방대한 양의 데이터를 복잡한 신경망 구조를 통해 처리하는 것을 포함하며, 이 과정은 상당한 계산 능력을 요구합니다. 이런 Training compute에 포함될 요소들에는 무엇이 있을지 알아보겠습니다. Training compute 논문 마다 Training compute를 넓게 또는 좁게 해석하기도 한다. 그 중 대표적인 구성 요소들을 알아보려고 한다. 1. 프로세서 processor 프로세서란 거대한 언어 모델을 학습시키는 데 사용되는 GPU나 TPU를 비롯한 전문 하드웨어들을 의미합니다. GPU는 그래픽 처리 장..
Take home message에 대해서 Take home message에 대해서 학술 논문 연구 발표나 리뷰를 쓸 때 마지막에 take home message라는 섹션을 둘 때가 있다. 이는 summary와 비슷한 느낌을 주는데 왜 take home 일까? 그냥 요약이랑 무엇이 다를까? 라는 궁금증에서 찾아보았고 take home message에 넣어야 하는 내용을 살펴보았다. take home message take home message는 연구 리뷰 작성자나 발표자가 해당 연구 논문을 읽은 후 가장 중요한 발견이나 핵심적인 통찰력을 전달하는 섹션을 의미한다. 그냥 단순한 결론이나 요약은 논문이 주장한대로 main contribution이나 자기가 만들어낸 방법론을 전달할 수도 있다. 하지만 take home message는 집에 가서도 생..
생성모델 비교에 왜 FID가 IS보다 비교척도로 많이 쓰일까 이미지 생성 모델, 특히 생성적 적대 신경망(GANs) 모델을 평가할 때 두 가지 인기있는 지표는 생성된 이미지의 품질을 평가하는 데 사용됩니다: 프레셰인셉션거리(FID)와 인셉션점수(IS). 각각 다른 목적을 가지고 있으며 생성된 이미지의 다른 측면을 측정합니다. Paperswithcode 같은 논문 비교 사이트를 들어가보거나 논문의 테이블을 보면 보통 FID를 기준으로 비교 성능을 줄 세우는 것을 알 수 있습니다. FID나 IS 모두 생성모델 비교에서 잘 쓰임에도 불구하고 결국 줄 세울 때는 FID를 우선으로 하는 이유가 뭘까요? 1. IS 인셉션 점수 인셉션 점수 (IS) 인셉션 점수는 사전 학습된 인셉션 모델을 사용하여 이미지의 품질을 평가합니다. 인셉션 모델은 본래 이미지 분류 태스크를 위해 학..

반응형