K-MOOC 데이터로 배우는 통계학 4~6주차

2021. 10. 4. 18:35교내활동/소학회

<백업용 글>

 

1. 부분에서 전체를 추론하기

1) 모집단과 표본

l  귀납적 추론: 데이터--> 표본--> 연구 모집단--> 목적 모집단

-데이터가 표본으로 가는 단계에서 데이터가 가져야 할 특성

 ①     데이터 자체의 변동이 작고 반복 가능

 ②     알고자 하는 항목에 대해 어떤 편의도 없이 정확히 측정하고 있음.

-내적 타당성: 표본이 연구 모집단의 대표성을 가지는 경우
 e.g.
임의추출 등의 방법 이용

-외적 타당성: 연구 모집단과 목적 모집단이 정확히 일치하지 않을 경우 연구 모집단의 결과를 목적 모집단으로 확장할 수 있는 경우

 

2) 표본 조사 방법

l  센서스: 표본을 선택하는 대신 전체 모집단에 대해서 조사를 한 경우

문제점

 ①     센서스에 잡히지 않는 사람이 있음. E.g. 불법 체류자

 ②     모집단은 계속 변화하기 때문에 완벽하게 모든 사람을 조사하는 것은 불가능

 ③     센서스가 샘플링보다 복잡할 수 있음

 

l  표본 편의

 ①     무응답 편의: 임의로 뽑힌 사람 중 일부만 대답하는 경우 전체 모집단을 대표한다고 할 수 없음

 ②      자원 응답 편의: 원하는 사람만 답변을 하는 경우 전체를 대표한다고 하기 어려움

 ③     선택 편의: 목표 모집단과 연구 모집단이 상이한 경우 생기는 문제

 

l  표본조사 예

1936년 미국 대선 때 리터러리 다이제스트는 독자, 자동차 소유자, 전화번호 소유자를 대상으로 조사를 실시, 공화당이 이길 것이라고 예측했으나 그 당시 자동차 소유자, 전화번호 소유자들은 고소득층이였고, 고소득층은 공화당을 압도적으로 지지하는 경향이 있었음. 하지만 갤럽은 더 적은 표본으로 정확하게 예측하였음.

 

l  전통적인 임의표본 추출 방법 *대표성을 가져야함*

 ①     단순 임의추출: 모집단에서 임의로 n개의 표본을 추출. 각 표본이 추출될 확률을 동일하게 만들어 추출. 모집단이 큰 경우 비효율적.

 ②     층화추출: 비슷한 관측치로 이루어진 층을 만들고 각 층에서 임의로 표본을 추출. 층 안은 동질적, 층 사이는 이질적으로 만들어야함.

 ③     집락추출: 모집단을 집락으로 나눈 후 집락을 단순 임의 추출로 추출. 추출된 집락 안의 자료를 모두 표본으로 이용. 전쟁, 기근, 자연재해 등으로 인한 사망률 추정에 사용.

 ④     다단계 추출: 집락 추출 후 집락 안의 자료를 대상으로 단순 임의 추출, 최종 표본 선정

 

l  이외의 표본 조사 방법

 ①     포획-재포획 추출(CRS): 특정 장소에 살고 있는 동물들의 개체수를 추정하기 위해 사용하는 방법. n개의 동물들을 포획한 후 각 동물마다 표지 부착. 동물들을 다시 방목 후 그중 K개를 포획. K개 중 표지가 있는 동물의 개수를 k라고 할 때 전체 모집단의 개수는 K*n/k. 주로 호수 등 제한된 곳에서 이용.

 ②     트란섹트 추출: 야생동물의 수를 추정하기 위해 사용. 주어진 공간에 등간격으로 직선을 그은 후, 직선을 따라 이동하며 관측된 동물의 숫자를 직선과 동물의 위치와의 수직 거리별로 정리 후 전체 동물 개수를 추정.

 

3) 개인정보 보호

l  데이터 3(개인정보 보호법, 정보통신망법, 신용정보법) 개정안을 통해 개인정보 보호법에서 가명정보 소개. 가명정보는 개인 동의 없이 통계작성, 연구, 공익적 기록 보존 목적으로 사용 가능.

출처: 교수님 피피티 (K-MOOC 데이터로 배우는 통계학 4주차)

l  데이터 거래소의 등장

금융데이터 거래소, 교통데이터 거래소, 민간데이터 거래소 등 인증된 기관들이 거래할 수 있는 데이터 거래소 등장

 

l  국소 차등 정보 보호

민감한 질문에 대해 대답할 그룹을 두 그룹으로 나눈 뒤 한 그룹에게는 민감하지 않은 질문을, 한 그룹에게는 민감한 질문을 해 솔직한 대답을 얻을 수 있도록 하는 것으로, 어떤 사람이 민감한 질문에 솔직한 대답을 했더라도 민감하지 않은 질문에 대답을 했다고 이야기함으로써 익명성이 보장됨.

--> 민감한 개인정보나 위치정보 등 없이도 필요한 정보들을 얻을 수 있음.

 

l  통계청 마이크로 데이터 센터

지정된 장소에서 제공된 자료를 분석하고 결과만 승인 하에 반출하는 서비스를 제공 중

 

l  건보 심사 평가원 코로나 데이터 공유센터

익명화 된 코로나 환자 데이터 공개. 웹사이트에 샘플데이터를 공통 데이터 모델 형식으로 공개.

*공통 데이터 모델: 서로 다른 데이터 생성 기관이 데이터 표준화 방식을 통해 분석 결과를 공유하는 방식.

 

4) 정규분포

l  1809년 요한 카를 프리드리히 가우스가 천문학과 인구조사의 측정 오차를 다루는 과정에서 유래.

 

l  모집단의 요약치를 모수(parameter)라고 부르고 정규 분포의 경우 2가지 모수에 의해 분포 모양이 결정

 

l  성적 등을 공정하게 평가하는 방법으로 표준화 점수 이용.

 

2. 인과 관계 알아보기

1) 인과 관계란?

l  상관관계가 인과관계를 의미하지 않음.

e.g. 중증질환, 부자가 더 잘 걸린다 => 부자들이 중증 질환 병원 이용을 더 자주함.

    인과관계 X

 

l  피어슨은 본인의 상관계수가 인과관계를 의미하지 않는다는 점을 명확히 함.

 

l  가설 확인 방안(인과관계 증명을 위한 방안)

 ①     임상시험

 ②     결과가 반복적으로 여러 연구에서 확인되어야

 

l  임상시험 원칙

 ①     대조군이 있어야 함.

 ②     실험군과 대조군의 배정은 임의로. RCT로 이루어져야 함.

 ③     분석은 맨 처음 할당된 그룹별로 실시되어야 함. (intention to treat)

 ④     참가자들은 본인이 어떤 그룹에 속하는지 몰라야 함.

 ⑤     각 그룹은 동일하게 다뤄져야 함.

 ⑥     최종 결과의 평가자 역시 연구 대상이 어떤 그룹에 속하는지 몰라야 함.

 ⑦     실험에 참가한 사람들은 가능한 끝까지 추적해야 함.

 ⑧     한 연구에만 의존하면 안됨.

 ⑨     증거를 메타분석을 통해 체계적으로 검토해야 함.

 

2) 관측연구에서 인과관계를 보이려면?

l  전향적 코호트 연구

생애별로 추적 조사를 진행하여 변화를 확인하는 연구 방법

 

l  후향적 코호트 연구

현 시점에서 나이든 사람들의 과거 모습이나 데이터를 통해 연구하는 방법

 

l  사례-대조 연구

영향을 미치는 요인이 서로 비슷한 사람들끼리 비교하는 것

코호트 연구와는 비교집단을 나누는 기준이 무엇인지에 달려있음.

 

l  중첩요인(confounder)

연관성을 보이는 두결과에 동시에 영향을 미치는 공동요인

E.g. 버클리 대학의 대학원 합격률과 지원자의 성별 사이에는 전공이라는 중첩요인으로 인해 심슨의 역설이 나타남.

중첩요인의 영향을 배제하기 위해 층화하거나 회귀분석을 통해 중첩요인을 통제해야 함.

 

l  역인과관계

실제 주장한 인과관계와 정확히 상반되는 인과관계

e.g. 스타벅스가 입점하면 집값이 오른다. à 스타벅스는 집값이 오를 가능성이 있는, 상권이 발달할 가능성이 있는 곳에 입점한다.

 

l  Hill’s criteria

 ①     직접적 증거

효과의 크기: 너무 커서 중첩 요인으로 설명 불가

시공간적 근접성: 원인과 결과가 밀접한 시공간상에서 관측됨

용량 반응성과 가역성: 위험요인이 증가하면 그 효과도 따라서 증가.

 ②     매커니즘 증거

인과고리를 설명해줄 그럴듯한 생물학적, 화학적, 기계적 메커니즘, 외적증거 존재

 ③     평행증거

효과가 기존의 사실과 들어맞음

동일한 효과가 해당 연구를 재현했을 때 발견

동일한 효과가 유사 연구에서 발견

 

3) 중첩요인을 통제하려면?

l  아버지의 키로 아들의 키를 예측할 수 있을까?

아버지와 아들의 키의 관계를 나타내는 직선을 그릴 때, 그 직선을 이용한 아들의 키의 예측치와 실제 아들의 키의 차이를 잔차(residual)이라고 함.

잔차를 최소화하는 방법으로 최소 제곱법이 있음.

 

l  유아의 팔목 두께가 굵으면 키도 크다?

<요약치>

: 평균 61.6cm 표준편차 6.3cm 범위 40.9~73.7cm

팔목 두께: 평균 12.4cm 표준편차 1.5cm 범위 7.3~15.6cm

 

추정식: y=2.7+1.6*x1  (y는 팔목 두께 추정치, x1은 키)

--> 유아의 키가 1cm 증가 시 팔목의 두께는 1.6cm 증가

-->키차이가 1cm인 유아들을 두 그룹으로 나누었을 때, 키가 큰 그룹이 팔목 두께가 0.16cm 굵음.

 

l  팔목 두께와 키, 몸무게의 관계는?

y=7.8+0.8*x2 (x2는 유아의 몸무게)

키와 몸무게를 합쳐둔 경우, y=14.1 - 0.16*height + 1.40*weight

키의 기울기가 양수에서 음수로 바뀜.

--> 몸무게가 같은 아이들의 경우 키차이가 나는 경우 작은 아이가 더 통통함.

--> 통통한 아이가 팔목 두께가 더 두꺼움.

--> 키와 팔목 두께 사이에는 반비례 관계를 보임.

 

 

 

4. 회귀모형

1) 최소 제곱법

l  단순 회귀분석: 두 변수간의 관계를 모형화하는 방법. 한 변수를 이용해 다른 변수를 예측하거나 설명하는데 유리.

 

l  반응변수(종속변수): 우리가 설명하거나 예측하고 싶은 변수

 

l  설명변수(독립변수, 예측변수): 반응변수의 값을 예측하기 위해 사용되는 변수

 

l  두 변수 사이의 관계가 선형관계라고 생각되면 아래와 같이 식이 나타남.

*회귀분석에서는 선형관계가 나타난다고 가정함.

 

l  추정치와 실제값의 차이를 잔차라고 하며 오차항의 추정치라고 할 수 있음.

잔차는 추정치와 실제 값과 수직거리 차이임.

 

l  최소 제곱법

아드리앵-마리 르장드르가 처음 제시했으나 칼 프리드리히 가우스가 전부터 사용하던 방법이라고 주장, 가우스가 최소제곱법을 확률 이론과 정규분포를 연관하여 설명했기 때문에 최초의 창시자는 가우스라고 간주함.

2) 회귀모형의 진단

l  일반적인 회귀 모형

l  회귀모형의 4가지 가정

 ①     반응변수와 설명변수간의 선형관계

선형인 경우 회귀분석 사용 가능. 선형 여부는 산점도나 잔차그림을 통해 파악 가능.

*잔차그림: 설명변수와 설명변수에 대응하는 잔차와의 산점도

e.g. 전염병 감염건수와 같은 기하급수적으로 증가하는 자료는 로그스케일을 이용해 다시 그래프를 그려 회귀분석을 이용. 반응변수 값에 0이 포함된 경우 0에 아주 작은 숫자를 더한 후 로그 변환.

 ②     반응변수의 등분산성

회귀모형에서 각 반응변수의 분산은 동일하다는 가정.

설명변수의 값이 증가할 때 반응변수의 분산이 증가하는 경우, 로그스케일이나 제곱근 변환을 고려할 수 있음. 변환하지 않는 경우 가중회귀모형을 고려.

 ③     반응변수의 정규분포

반응변수가 정규분포를 따른다 == 오차항이 정규분포를 따른다

잔차들의 히스토그램을 통해 정규성 가정을 확인할 수 있음.

정규분포가 극단적으로 치우친 것이 아니라면 회귀분석을 적용해도 문제없음.

 ④     반응변수값의 독립

반응변수의 값이 서로 의존하는 경우: 주가지수와 같은 시계열 자료

이런 경우 회귀모형 사용 불가. 시계열 자료를 위한 통계모형을 이용해야 함.

 

3) 회귀모형의 함정

l  과속단속 카메라가 교통사고를 감소시키는가?

단속 카메라는 최근에 사고가 난 장소에 새로 설치됨. 설치 후 사고율이 내려가면 사람들은 단속카메라 때문이라고 믿음. 하지만 평균으로의 회귀 때문에 어차피 사고율은 떨어짐.

 

l  외삽법

주어진 자료의 범위 밖에서 모형을 이용하여 예측하는 것

 

l  회귀분석에서의 이상점

회귀분석에서 데이터와 떨어져있는 점을 이상점이라고 하며, 회귀직선의 기울기에 영향을 주기도 함.

 

l  안스콤의 퀴르텟

눈으로 보지 않고 컴퓨터로만 분석을 하는 경우 엉뚱한 결과를 볼 수 있음.