K-MOOC 데이터로 배우는 통계학 1~3주차

2021. 10. 4. 13:39교내활동/소학회

<백업용 글>

 

0. PPDAC 과정

데이터를 분석하는 다섯개의 단계를 나타내며 각각 Problem, Plan, Data, Analysis, Conclusion을 의미함.
Problem
단계에서 중요한 것은 문제 정의의 기준을 어떻게 혹은 어디에 두는지가 가장 중요함. 예를 들어 지구상에는 얼마나 많은 나무가 있을지에 대한 문제에서 나무의 정의에 따라 나무의 기준이 바뀔 수 있음.
Plan
단계에서는 어떻게 데이터를 수집할 것인지를 계획하는 단계임.
Data
단계는 데이터를 수집하고 전처리하는 과정을 담고 있으며, Analysis 단계에서는 통계모형 등을 이용해 결론 도출 과정으로 진입함.
Conclusion
단계에서는 앞의 과정을 통해 결론 도출을 하는 단계임.

 

1. 데이터 수집 과정

1) 실험: 의미 있는 결론을 도출하기 위해 자료를 모으기 위한 수단으로 설명변수와 반응변수의 인과관계를 알아봄.

e.g. 리차드 파인만의 실험
챌린저 호의 폭발 이유에 대한 실험을 진행. O-ring의 탄력성에 대한 실험으로 얼음물에 넣어 탄력성이 떨어짐을 보여줌. 하지만 비교집단이 없기 때문에 완벽한 실험이 아님.

Problem: 추운 날씨가 우주 왕복선의 O-ring의 탄력성을 잃게 한 원인인가?
실험군: 고무밴드를 얼음물에 넣는다.
대조군: 고무밴드를 미지근한 물에 넣는다.
반응변수: 고무밴드의 탄력성
설명변수: 물의 온도

*
설명변수와 반응변수: 한 쌍의 변수가 주어진 경우 한 변수가 다른 변수에게 영향을 주는 경우 전자를 설명변수, 후자를 반응변수라고 함.

*효율적인 실험을 위한 5가지 원칙

     Controlling treatment group and control group

     Randomization(임의 할당) control grouptreatment group 참가자들을 임의로 할당

     Replication(반복): 충분히 큰 표본을 사용할 경우 설명 변수가 반응 변수에 미치는 영향에 대한 추정 결과를 반복적으로 관찰할 수 있음

     Double-Blind(이중 암맹): 참가자와 연구자 모두 참가자가 속한 group을 알려주지 않음

     Blocking(블록화): 반응변수에 영향을 미치는 다른 변수가 있는 경우 참가자들은 그 변수값에 따라 block을 나눈 후 block별로 참가자를 임의로 treatment group에 할당

2) 관측 연구: 연구자가 자료를 관측하고 수집. 자료의 생성과정에 관여하지 않음. 설명변수와 반응변수의 연관성을 밝히는데 초점을 맞춤.

     전향적 연구: 특정 시점을 기준으로 미래에 대해 알아보는 것. 연구자가 대상자를 추적 관찰하며 관련 정보를 얻는 것.

     후향적 연구: 이미 일어난 일에 대한 정보를 얻는 연구

 

*교락효과(Confounder Effect)
교락 요인: 반응 변수와 설명 변수에 모두 영향을 미치는 변수
--> 교락요인을 통제해야 반응변수가 순수하게 설명변수에 미치는 영향을 알 수 있음

 

<교락요인 통제 방법>

-교락 요인의 값에 따라 그룹을 나눈 후 반응 변수와 설명 변수의 관계를 알아봄

-가중평균 이용

 

2. 자료의 유형과 요약

1) 이진데이터
 
특정 사건의 발생 유무와 같이 두가지 값으로 이루어진 데이터
 
이진데이터들의 평균은 비율로 표시

*긍정/부정 메시지 프레이밍: 결론의 주요 부분 중 하나는 분석 결과를 효과적으로 전달함
e.g.
미국은 사망률, 영국은 생존률 제시
--> 데이터를 긍정적 또는 부정적 의미를 나타내는 결과로 전달하는 방식

 정보를 정확하게 전달하기 위해 결론을 긍정/부정 프레이밍 모두 이용하는 것이 좋으며
절대적인 숫자와 상대적 요약을 모두 제공하는 것도 중요

 논리적이고 의미 있는 기준선을 찾기위해 노력해야함

 

2) 범주형 자료
변수: 주어진 상황에 따른 값을 가지는 측정치
범주형 변수는 2개 이상의 범주를 값으로 가지는 변수
e.g.
국적, 성별, 계급, 일련의 그룹으로 묶인 숫자들 등

 파이차트를 이용해 시각화를 하는 경우 그래프를 통해 해석하기가 어려움--> 바차트 이용

 

*절대위험도와 상대위험도
절대 위험도의 차이 = 위험 요인이 있는 절대 위험도 – control group의 절대 위험도
상대위험도 = 위험 요인이 있는 집단의 절대위험도 / control group의 절대 위험도
상대 위험도 값이 높을지라도 절대 위험도가 작은 경우 실제 위험 자체가 문제되지 않을 수 있음.
e.g.
베이컨 샌드위치는 대장암 발병률을 얼마나 높이는가?

 

*기대빈도와 오즈비
기대도수: 주어진 집단에서 특정 사건에 일어나는 개수의 예측갑
오즈: 도박에서 주로 사용됨. E.g. 우승의 경우의 수 / 우승하지 못하는 경우의수
오즈비 = 위험 요인이 있는 집단의 오즈 / control group의 오즈
--> 절대 위험도가 굉장히 작은 경우 오즈비와 상대 위험도 값은 비슷해짐

 

3) 연속형 자료
 범주형: 순서의 유무에 따라
 수치형: 이산형/연속형
 차트로 나타낼 때 데이터들이 너무 몰린 경우 로그를 씌워 값을 변환해주면 데이터의 치우침을 막을 수 있음

 

연속형 자료의 중앙값을 나타내는 통계량
 평균값, 중앙값, 최빈수

퍼짐을 나타내는 통계량
 범위=최대-최소
 IQR=Q3-Q1
 표준편차

 

4) 이외의 것들

Box plot에서는 upper whisker, Q3, 중앙값, Q1, lower whisker가 나타남.

로버스트 통계량: 한 개의 데이터 값의 변화에 크게 좌우되지 않는 통계량

Modality는 그래프의 봉우리 개수, skweness는 좌우의 치우침이나 대칭성을 나타냄

 

 

3. 자료들간의 관계와 데이터 시각화

1) 변수들간의 관계 알아보기
 산점도: x축과 y축을 이용해 시각화
 피어슨 상관계수: 값이 1이나 -1에 가까울수록 강한 직선관계가 있음을 의미
--> 선형관계만 탐지가 가능해 다른 통계량이 제시됨
 스피어만 순위 상관계수: 연관성은 나타낼 수 있으나 인과관계 유추는 어려움

 

2) 동향 설명하기
로그 스케일--> 각 대륙들의 추세를 더 명확하게 볼 수 있음
인포그래픽: 하나의 그림에 여러 정보를 표현하는 방식

 <좋은 시각화의 특징>

 ①     믿을만한 정보를 담고있음

 ②     유의미한 패턴이 뚜렷이 나타나도록 디자인

 ③     관심을 끌 수 있게 눈에 띄게 해야하지만 데이터 자체가 전달하는 정확한 의미가 훼손되면 안됨

 ④     필요하다면 추가적 탐색 가능

 

3) 스프레드 시트 이용하기

 ①     일관성을 가질 것

 ②     적절한 변수나 파일 이름을 사용할 것

 ③     날짜는 YYYY-MM-DD의 형태로

 ④     빈칸 남기지 말 것

 ⑤     하나의 셀에는 하나의 정보만

 ⑥     데이터는 항상 사각형으로

 ⑦     변수의 이름 등을 적어둔 코드북 작성

 ⑧     엑셀 수식 이용 금지

 ⑨     데이터는 민낯이 좋음

 ⑩     백업파일 항상 만들 것

 ⑪     데이터 유효성 검사를 통해 실수를 피하자

 ⑫     데이터는 csv파일로 저장