2차시 공부: 표본을 얻는 과정

2021. 6. 30. 12:33개인활동/파이썬으로 배우는 통계학 교과서

Chapter 2. 표본을 얻는 과정

확률 변수란 확률적 법칙에 따라 변화하는 값으로 이에 대한 이해와 다른 용어들의 설명을 위해 호수에서 낚시를 하는 예를 가지고 모든 설명을 할 예정이다.

이 호수는 다른 곳에서 물고기가 유입되지 않고, 물고기는 1종류만 살고있다. 물고기를 낚는데 쉽고 어려움은 없으며, 잡은 물고기를 다시 호수에 돌려보내도 전체 물고기의 수가 변하지 않는다. 그리고 물고기가 다치는 일은 없다. 낚아올린 물고기의 길이는 모두 반올림하여 소수점을 없앤다.

이 호수에서 한마리를 잡아올렸다 하자. 이때 물고기 전체는 모집단, 잡아올린 물고기는 표본이라고 할 수 있다. 그리고 표본을 뽑아내는 과정을 샘플링이라고 하며 여기서는 물고기를 잡아올린 것이 샘플링이다. 샘플링은 다른말로 표본추출이라고도 한다. 모집단에서 표본을 무작위로 뽑는 방법은 단순 랜덤 샘플링이라고 한다. 물고기를 낚는 이 예시를 이용하자면 호수에서 물고기를 무작위로 낚는 것이다.

낚은 고기들의 길이 데이터들의 수, 즉 길이 데이터의 규모를 샘플 사이즈라고 하며 많다/적다라는 표현보다 크다/작다라고 표현한다. 예를들어 호수에 천마리의 물고기가 있을 때 낚은 고기들의 길이 데이터가 10개일때, 200개일 때를 비교하면 10개일때는 샘플 사이즈가 작다고 이야기하고, 200개일때는 샘플사이즈가 크다고 이야기하는 것이다.

이번엔 호수 안에 총 5마리의 물고기가 있으며 길이는 각가 2, 3, 4, 5, 6센티라고 가정해보자. 여기서 2센티 물고기가 잡힐 확률은 20%, 5센티 물고기가 잡힐 확률은 20%이다. 그렇다면 내일 낚일 물고기의 크기를 예측해볼때 2센티가 잡힐 확률은 20%이다. 여기서 알 수 있는 것은 내일 잡힐 물고기의 데이터는 확률적으로 변하며 이 데이터가 바로 확률 변수가 되는 것이다.

여기서 확률 변수의 구체적인 값을 실현값이라고 하고, 실현값이라고 부르는 이유는 얻지 못한 데이터가 있음을 분명히 하기 위해서이다. 여기서 왜 실현값이라고 이름을 붙였을까 궁금해 사전적 의미를 본 결과 실현은 '기대한 것을 실제로 이룸'이라는 뜻으로 내 생각에는 확률 변수의 구체적인 값을 알아낸 것을 이루었기 때문에 실현값이라고 하는 것 같다. 

그리고 모집단의 전체를 조사하는 것을 전수조사, 모집단의 일부만 조사하는 것을 표본조사라고 한다. 전수조사가 가능한 경우는 굉장히 드물며 대부분 표본조사를 통해 일부 표본을 만들어 모집단을 추정한다