3차시 공부: 표본을 얻는 과정의 추상화

2021. 6. 30. 21:41개인활동/파이썬으로 배우는 통계학 교과서

Chapter 3. 표본을 얻는 과정의 추상화

샘플링 과정을 추상화하여 수학적으로 다루기 쉽게 한다. 여기서 추상화를 한다는 것은 복잡한 자료로부터 핵심적인 개념이나 기능만 간추리는 것을 이야기한다.

확률(probability)은 주로 P라고 나타내며 2cm짜리 물고기가 잡힐 확률은 P(1.5=<몸길이<2.5)라고 나타낸다.

(앞에서 말했던 호수 이야기를 계속 이용하니 기억해두자.)

그리고 이 확률은 1/5=20%이다.

확률 분포는 확률 변수와 그 값이 나올 수 있는 확률을 대응시켜 나타낸 것으로 짧게 분포라고도 한다.

1~5cm 물고기가 한마리씩 있는 호수에서의 확률분포를 보자면

P(0.5=<몸길이<1.5)=20%

P(1.5=<몸길이<2.5)=20%

P(2.5=<몸길이<3.5)=20%

P(3.5=<몸길이<4.5)=20%

P(4.5=<몸길이<5.5)=20%

이렇게 나타낼 수 있다.

그리고 어떤 데이터가 어떤 확률 분포에 대응할 때 확률 분포를 따른다고 이야기한다. 호수의 물고기를 가지고 예를 들자면 낚은 물고기의 몸 길이는 {20%, 20%, .... , 20%}의 확률 분포를 따른다고 이야기할 수 있다.

모집단이 따르는 확률 분포는 모집단 분포라고 이야기한다. 예를들어 고양이 암수 1000마리씩 있다고 가정해보자. 이때 모집단은 고양이 2000마리이고 이 모집단에서 단순 랜덤 샘플링으로 표본을 1개 획득했다면 P(암컷)=P(수컷)=50%의 확률분포를 따른다. 이는 결국

고양이 2000마리의 모집단에서 단순 랜덤 샘플링으로 표본 1개를 획득

=P(암컷)=P(수컷)=50%의 확률분포를 따르는 확률 변수 1개 획득

과 같은 말이 되는 것이다. 예시 없이 이야기하자면 모집단에서 단순 랜덤 샘플링으로 표본을 1개 획득한 것은 모집단 분포에 따르는 확률 변수 1개를 획득한 것과 같은 말이다.

그렇다면 무한 모집단은 어떻게 해야할까?

예를들어 정육면체 주사위를 던졌을 때의 모집단은 이세상의 모든 주사위를 던진 결과가 모집단일 것이다. 하지만 셀수없이 많은 결과가 나와 상상할 수 없다. 이처럼 무한한 크기를 가진 모집단을 무한 모집단이라고 하며 모집단을 다 알아낼 수는 없지만 모집단의 분포는 추측가능하다. 주사위를 던졌을 때의 모집단 분포는 아래와 같을 것이다.

{1,2,3,4,5,6}={1/2,1/2,1/2,1/2,1/2,1/2}

위의 내용들을 토대로 표본을 얻는 과정을 다시한번 알아보자.

호수에서 3cm짜리 물고기를 낚은 것은 모집단에서 샘플링하여 3cm짜리 물고기라는 표본을 얻은 것이고, 모집단 분포를 따르는 확률 변수로 3cm짜리 물고기라는 데이터를 실현값으로 획득한 것이다.

+5마리의 물고기만 존재하는 호수에서 낚시하는 예를 항아리에 서로 다른 공 5개가 들어있을 때 랜덤으로 1개를 꺼내는 것처럼 볼 수 있다. 이는 항아리에서 공을 꺼내는 행동으로 여러가지 현상을 표현하는 항아리 모델이라고 한다.