K-MOOC 데이터로 배우는 통계학 8~9주차

2021. 11. 4. 21:15교내활동/소학회

반응형

1. 확률로 풀어보는 불확실성

1) 붓스트랩

표본이 커질수록 표본 요약치의 값들은 모집단의 요약치와 가까워지지만, 같은 크기의 표본을 다시 뽑는 과정에서 처음의 요약치와는 값들이 변함. 이를 요약치의 변동성(통계량의 분산)이라고 하며, 이를 알아내기 위한 방안으로 bootstrap이 있음.

Bootstrap: 모집단에서 표본을 추출 후 그 표본으로 복원추출을 진행하는 방법

붓스트랩 95% 불확실성 구간은 재표본 평균의 95%가 포함되는 범위임.

붓스트랩을 이용해 회귀직선을 그릴 때 불확실성 구간이 나옴.

 

2) 확률의 기원과 법칙

확률: 데이터가 어떻게 생성되었는지 모형에 대한 것

기대돗수나무: 가능한 모든 경우를 고려해 확률을 쉽게 계산할 수 있는 그림

확률법칙

     확률은 01 사이임

     여사건 법칙

     덧셈법칙

     곱셈법칙

 

3) 조건부 확률과 확률변수

암에 걸렸을 때 진단 결과가 양성일 확률이 90%, 하지만 진단 결과가 양성일 때 암에 걸릴 확률은 8%. 이 두가지의 확률을 혼동하는 경우가 많은데 이런 혼동을 검사의 오류라고 함.

고전적 확률: 주사위 던지기와 동전 던지기처럼 모든 결과가 나올 확률이 동일하다는 전제 하에 특정 사건이 나올 확률을 계산

나열 확률: 모든 가능한 경우를 생각하고, 내가 관심있는 사건이 일어나는 비율을 생각함.

장기빈도 확률: 동일한 사건이 반복적으로 일어날 때 발생하는 비율. 하지만 모든 사건이 반복적으로 일어나지는 않음.

성향: 특정 사건이 일어날 진짜 가능성을 의미. 하지만 전지전능한 경우가 아닌 이상 성향을 알아내는 것은 거의 불가능함.

주관적 확률: 월드컵에서 한국이 4강까지 진출할 경우 10만원을 주는 도박에 내가 만원을 걸었을 때 나의 주관적 확률은 0.1.

확률변수: 특정 결과를 숫자와 연관시키는 규칙. 표본공간에 속한 각각의 원소에 특정 숫자를 대입한 값임.

표본공간: 우리가 특정 사건을 생각하고 특정 사건의 가능한 모든 결과물의 집합

베르누이 분포: 두가지 가능한 결과물을 가진 확률변수의 확률분포

포아송 분포: 시공간이 정해진 상황에서 일어나는 사건의 횟수를 확률변수로 생각할 때, 확률변수가 따르는 분포. 어떤 사건이 일어날 기회는 엄청나게 많지만 각 사건이 일어날 가능성이 아주 적은 경우에 사용.

 

2. 신뢰구간과 가설검정

1) 중심극한정리

탐색적 자료분석: 데이터 분석의 첫단계

확증적 자료분석: 데이터 분석의 두번째 단계. 자료에 관한 수치적 요약치(통계량)를 제시하는 것으로 시작. 통계량은 표본에 따라 값이 달라질 수 있기 때문에 변동성을 아랑보기 위한 표본분포를 아는 것이 중요. 표본분포를 알아보기 위해 붓스트랩이나 통계이론 사용.

이항분포: 베르누이 분포를 확장한 경우.

표준오차: 표본비율과 같은 통계량의 표준편차

*지역별 대장암 사망률

지역별 대장암 사망률 차이의 원인으로 불균등한 의료서비스 지목

--> 폴 바든이 영국의 지자체별 인구와 대장암 사망률에 관한 산점도를 그림. (funnel plot)

--> 인구 숫자에 따라 사망률이 아주 높거나 아주 낮은 경우도 있었음.

--> 인구가 작은 경우 약간의 변동에 따라 사망률이 차이가 컸음.

--> 이런 사실을 고려해 control limit을 표시. 사망자 수가 이항분포를 따른다는 사실에 기반하여 그려짐.

대수의 법칙: 표본 크기가 커짐에 따라 표본의 비율이 평균 근처로 좁혀짐. 베르누이에 의해 확립된 대수법칙으로 설명 가능. 동전 던지기 예시에서, 표본비율(표본평균)은 특정 값으로 수렴하지만 앞면이 나온 횟수와 뒷면이 나온 횟수의 차이가 줄어들지는 않음.

도박사의 오류: 이항분포에서 각 시행간은 서로 독립이라고 가정하기 때문에 이전의 결과가 지금의 시행에 영향을 주지 않음.

중심극한정리: 표본비율은 특정 값에 수렴하는 것뿐만 아니라 정규분포 형태를 띔. 표본평균들도 표본크기가 증가하면 분포의 형태가 정규분포 형태를 띔. 아브라함 드 무아브르에 의해 증명됨.

 

2) 신뢰구간

통계량의 불확실성: 추정치(통계량)의 변동성 혹은 불확실성을 추정치와 같이 제시할 필요가 있고, 변동성이 작다면 추정치는 보다 신뢰할 만한 값을 제시한다고 볼 수 있음.

신뢰구간: 통계량의 불확실성은 표준오차(통계량의 표준편차)나 신뢰구간을 이용해 제시

--> 중심극한정리를 이용해 알고자 하는 모집단의 모수에 대해 추정치가 그 안에 포함될 확률이 95%인 예측구간을 구함. 그리고 실제 데이터를 통해 추정치 계산. 예측구간 안에 놓일 수 있는 모수의 범위를 구하고, 이를 95% 신뢰구간이라고 함.

 

3) ‘무죄가 아니라 유죄라고 할 수 없다가 맞다

가설: 어떤 현상에 대한 설명으로 잠정적인 가정

가설 검정: 우리가 세운 가설이 맞는지 여부를 확인하는 과정

     가설설정

 l  귀무가설: 현 상태에 대한 잠정적 가정 = 무죄 추정의 원칙

 l  대립가설: 우리가 알고 싶은 것

     검정 통계량

     검정 통계량의 표본분포

     결론

통계적 가설 검정에서도 귀무가설이 참이라는 결론을 내리지 않음. 대립가설이 참이거나 대립가설이 참이라고 할 만한 충분한 증거가 없다는 것이 결론

 

반응형