[DSOB/WIDA] DACON을 활용한 Classification 학습하기 (1)

2023. 3. 16. 22:04교내활동/소학회

 

현재 소학회에서 플젝(을 가장한 스터디)를 진행중이다.

전반적인 도메인 지식을 알아가는 과정으로서 작성한 글이다.

소학회 티스토리에 올렸던 글을 그대로 가져왔다.

https://dsob2021swu.tistory.com/40


 

데이콘에서 2020년에 열렸던 월간 데이콘 대회 중 하나

천체 유형 분류 대회를 통해 분류모델을 학습하는 시간을 가질 예정이다.

 

일단 주어진 training dataset을 바탕으로 우리가 알아야 할 도메인 지식들을 알아보았다.

 

1. id, type, fiberID

id

그냥 데이터 하나하나에 붙여준 것이라 구체적으로 볼 필요가 없는 것 같다.

 

type

type은 자세히 살펴볼 필요가 있다.

GALAXY : 주 표본 은하
QSO : 퀘이사
REDDEN_STD
ROSAT_D : X선 파장대에서 관측한 천체이나 SDSS 망원경에서도 관측되는 천체
SERENDIPITY_BLUE : 항성구역 외부에 놓인 천체
SERENDIPITY_DISTANT : 항성구역 외부에 놓인 천체
SERENDIPITY_FIRST : 첫번째 관측에서는 퀘이사로 분류되었으나 이어진 관측에서 더 흐릿한 천체
SERENDIPITY_MANUAL : 수동으로 관측된 천체
SERENDIPITY_RED : 항성구역 외부에 놓인 천
SKY : 빈 하늘
SPECTROPHOTO_STD
STAR_BHB : 수평거열성
STAR_BROWN_DWARF : 갈색 왜성
STAR_CARBON : 탄소로 이루어진 왜성
STAR_CATY_VAR : 격변변광성
STAR_PN : 행성상 성운의 중심
STAR_RED_DWARF : 적색왜성
STAR_SUB_DWARF : 저광도 준왜성
STAR_WHITE_DWARF : 백색왜성

총 19개의 type이 존재하며, 각각의 type들이 무엇인지 찾아보았다.

데이콘 토크탭에서 찾아낸 정보들과, 직접 번역기를 돌려 알아낸 정보들이 존재하는데,

spectrophoto_std와 redden_std는 무엇인지 알아내지 못했다.

 

spectrophoto_std의 경우 그냥 단어를 봤을 때 추측한건 스펙트럼이미지의 평균치를 보이는 별인가?

redden_std의 경우 붉어진 별...?

 

모르겠다

 

도대체 뭘까?

 

별들의 이름도 어려운게 너무 많다.

고등학교때 배운 별들만 존재하지 않다니.

 

fiberID

천체를 관측할 때 사용된 광섬유의 식별번호라고 데이콘에서 제공해주고 있다.

이때 광섬유가 왜 나오는 것인지 궁금해서 찾아보니,

천체망원경이 모은 별빛을 광섬유를 이용해 파장별로 분산시키기 때문이라고 한다.

 

이 과정을 통해 별들의 세밀한 움직임 등을 파악한다고 한다.

 

2. psfMag_u, psfMag_g, psfMag_r, psfMag_i, psfMag_z

여기서 psf란?

 

Point Spread Function

점 확산 함수라고 한다.

 

점 확산함수(psf)는 공간영역에서 광학 시스템이 광점을 흐릿하게 만드는 정도를 확인할 수 있도록 해주는 함수라고 한다.

 

공간영역은 영상의 화소값이 XY 직교 좌표상에 표현되는 영역이며,

광학시스템은 빛을 모으고 분산시키는 시스템을 말하고,

광점이란 크기와 형태 없이 하나의 점으로 보이는 광원을 말한다

 

그렇다면 psfMag는?

측정한 flux(광선속)를 psf에 넣어서 나온 결과값을 말하는 듯 하다

 

그리고 각 column 명에는 u, g, r, i, z라는 알파벳이 존재하는데

이 알파벳들은 각각 다음과 같은 의미를 가진다

u : Ultraviolet, 자외선

g : Green, 가시광선 중 초록색의 파장

r : Red, 가시광선 중 빨간색의 파장

i : Near Infrared, 적외선 중 빨간색에 가까운 적외선

z : Infrared, 적외선

이 뒤에 세세트의 column들도 파장에 대한 정보가 포함되어있다.

 

이 다섯개의 column들은 결국 별의 광도를 나타내고 있으며,

광도는 수가 작을 수록 밝은 것을 의미한다.

음수라면 정말 밝은 별인 것이다.

 

3. fiberMag_u, fiberMag_g, fiberMag_r, fiberMag_i, fiberMag_z

fiber?

위에서 fiberID에서 본 것 처럼 광섬유를 이야기한다.

 

그렇다면 fiberMag는 무엇일까?

광섬유로 측정한 광도를 의미하는 것으로 추론하였다.

 

이해가 안되는 것들이 꽤 많아서 chat gpt에게 물어본 결과

"fiberMag"는 천체 망원경 분야에서 새로운 천체를 발견하거나 관측 대상 천체의 밝기를 측정하는 데 사용되기도 합니다. 이 경우 "fiberMag"는 광학 망원경에서 관측 대상 천체를 수집하는 광섬유의 지름을 의미합니다.

이렇게 이야기를 해주었다.

광섬유의 지름일까? 광도일까? 데이터를 좀 더 자세히 뜯어보고 비교하는 과정이 필요할 듯 하다.

 

4. petroMag_u, petroMag_g, petroMag_r, petroMag_i, petroMag_z

petroMag는 petrosian Magnitude의 약자이다.

그렇다면 petrosian은 무엇인가?

 

sdss4에서 올려준 설명을 토대로 내가 해석한 것을 이야기하자면

은하의 flux(광선속)를 측정할 때 bias를 피하기 위해서 물체의 위치와 거리에 관계없이

총 빛의 일정한 부분을 측정하고자 했는데, 이 부분을 해결할 수 있는 시스템이 petrosian 시스템인 듯 하다.

 

chat gpt는 이에 대해 아래와 같이 이야기를 해주었다.

"petroMag"는 천체의 밝기를 나타내는 척도 중 하나입니다. "petroMag"는 "Petrosian Magnitude"의 약자로, Petrosian 반지름이라는 개념에 기반하여 측정된 등급입니다.
Petrosian 반지름은 천체의 중심에서 외부로 일정한 비율의 빛을 적용하는 반지름을 의미합니다. 이 방법은 천체의 크기와 모양에 상관없이 일관된 방식으로 밝기를 측정할 수 있도록 해주며, 이러한 이유로 보다 정확한 천체 밝기 측정을 위해 자주 사용됩니다.
"petroMag"는 보통 겉보기 밝기를 측정할 때 사용됩니다. 천체의 이미지를 촬영한 후 Petrosian 반지름을 계산하고, 해당 반지름 내의 빛의 총양을 계산하여 "petroMag"를 산출합니다. "petroMag"는 "magnitude"와 동일한 척도로 표현됩니다.또한 "petroMag"는 천체의 크기에 대한 정보를 제공합니다. Petrosian 반지름은 천체의 크기에 대한 측정치로 사용될 수 있습니다.

5. modelMag_u, modelMag_g, modelMag_r, modelMag_i, modelMag_z

modelMag에서 model이 무엇인지를 먼저 알아봤다.

 

sdss4에서 제공한 자료를 토대로 해석해본 결과

모델은 모든 band의 flux를 계산하기 위해 r-band의 두개의 적합치 중 더 나은것을 조리개로 사용한다.

라고 해석이 되는데 이게 무슨 소리일까?

 

일단 band의 경우에는 파장이나 별의 무리를 의미할 것이라고 추론했는데 아무래도 파장인 듯 하다.

 

그리고 천문공학적인 이야기가 많이 나와서 제대로 이해하진 못했으나 또 chat gpt에게 물어봤다.

"modelMag"는 천체의 밝기를 나타내는 척도 중 하나입니다.
"modelMag"는 천체의 이미지를 어떤 모델 함수로 모델링한 결과를 기반으로 측정된 등급입니다. 보통 "modelMag"는 겉보기 밝기를 측정하기 위해 사용됩니다. "modelMag"는 해당 천체가 모델 함수로 모델링되어 얻어진 예상 등급입니다. 예를 들어, 천체의 이미지를 가우시안 함수로 모델링하여 "modelMag"를 계산할 수 있습니다. "modelMag"는 다른 유형의 등급과 함께 사용될 때, 천체의 형태와 크기에 대한 정보를 제공하는데 도움이 됩니다.  예를 들어, "aperture magnitude"와 "modelMag"를 함께 사용하면 천체의 중심과 크기에 대한 정보를 얻을 수 있습니다. "modelMag"는 다른 유형의 밝기 척도와 달리, 천체의 밝기를 추정하기 위해 해당 이미지에 대해 모델 함수가 필요합니다. 따라서 "modelMag"는 이미지에서 얻은 밝기 측정치에 따라 달라질 수 있습니다.

똑똑하다... chat gpt..

 

결과적으로 알아낸 점은 column들은 모두 천체의 광도를 나타내는 척도이며,

파장대별로 광도를 나타내고 있다는 점을 알 수 있었다.

 

처음 데이터를 봤을 때보다는 훨씬 데이터를 이해하기 쉬워진 듯 하다.

 


<참고자료>

  • chat gpt4에게 column들에 대해 질문