4차시 공부: 기술통계 기초

2021. 7. 1. 11:59개인활동/파이썬으로 배우는 통계학 교과서

Chapter 4. 기술통계 기초

이 챕터에서는 데이터를 분류, 정리, 요약하는 방법에 대해 나와있다.

데이터는 정량적인 데이터와 정량적이지 않은 데이터로 분류된다.

정량적이지 않은 데이터

정량적이지 않은 데이터는 *수치로 표현하기 어려운 경우로 주로 카테고리형 변수로 나타낸다. 예를 들어 호수의 물고기 데이터를 분석할 때 정확한 마릿수는 알기 어렵지만 어떤 종류가 있는지는 알아낼 수 있다. 그래서 수치형 변수로 나타내지 않고 송사리, 잉어 등과 같이 카테고리형 변수로 나타낸다.

*수치로 표현하기 어려운 경우는 필자가 추측한것이므로 정확하지 않을 수 있음.

위의 호수의 예를 통해 좀더 자세히 카테고리형 변수에 대해 알아보자. 호수 안에 물고기를 종류별로 분류한 것은 카테고리를 나눈 것이다. 이 카테고리를 명목 척도라고 이야기하기도 한다. 그렇다면 호수안의 물고기를 구체적인 수치가 아닌 대중소라는 대략적인 틀을 이용해 나누는 것, 즉 서열을 가지게끔 카테고리를 분류하는 것은 서열 척도라고 한다.

정량적 데이터

정량적 데이터는 수치의 간격이 뜻하는 바가 동일한 수치형 변수로 낚아올린 물고기의 몸길이, 마릿수 등이 그 예이다. 낚아올린 물고기의 몸 길이는 연속적이라고 생각할 수 있겠지만 앞에서부터 계속 사용했던 1cm, 2cm, 3cm 등의 반올림한 물고기의 몸길이로 생각하면 수치의 간격은 1cm로 동일하다. 수치형 변수는 양적 데이터라고 불리기도 하는데 양적 데이터란 구체적인 수치로 데이터를 나타내는 것을 이야기한다.

이 수치형 변수는 고등학교 확통시간에 한번쯤 들어봤을 이산형 변수와 연속형 변수로 나뉜다. 이산형 변수는 정수값을 가지는 변수로 마릿수 등이 있다. 연속형 변수란 소수점 이하의 값을 가지며 말 그대로 연속적으로 변하는 변수이다. 사람들의 키를 반올림하지 않고 나열하는 경우가 그 예이다.

이런 수치형 변수는 값을 몇개의 범위로 분할하는 계급이라는 것이 존재하는 경우가 많다. 계급을 대표하는 값이 계급값이고, 계급값은 범위 내의 최솟값과 최댓값의 중간값으로 결정한다.

데이터가 나타난 빈도수는 도수라고 이야기하며 계급에 대응하는 도수의 목록을 도수분포라고 한다. 초등학교 중학교때 한번쯤 머리 쥐어뜯으며 공부했던 부분일 것이다. 그리고 전체를 1로 두었을 때 도수가 차지하는 비율로 나타낸 것을 상대도수라고 한다. 상대도수 문제를 풀 때는 이런 개념을 제대로 알지 못하고 풀어서 정말 하기 싫었는데 지금 생각해보면 정말 별게 아니였다.

또 호수 속 물고기로 예를 들어보자. 도수분포표를 이용해 직관적으로 알아보자.

계급 도수 계급값(cm) 상대도수 누적 도수분포 누적 상대도수
0.5 =< 몸길이 <1.5 1마리 1 0.1 1 0.1
1.5 =< 몸길이 < 2.5 2마리 2 0.2 3 0.3
2.5 =< 몸길이 < 3.5 4마리 3 0.4 7 0.7
3.5 =< 몸길이 < 4.5 2마리 4 0.2 9 0.9
4.5 =< 몸길이 < 5.5 1마리 5 0.1 10 1.0

도수 분포 표는 작은 것 부터 차례대로 정렬을 해야한다. 여기서 누적 도수 분포는 도수의 누적 합계를 차례대로 구한 것이다. 마찬가디로 상대도수의 값을 차례대로 누적값을 구하면 누적 상대도수가 되는 것이다.

이 도수분포표를 도표로 나타낸 것을 히스토그램이라고 한다. 흔히 막대그래프라고 하는 것과 형태가 유사하지만 다르다. 

 

 

표본을 획득한 후 모집단을 바로 추정하려고 할 때가 있을 것이다. 하지만 표본 획득 후에는 표본들의 특징을 먼저 살펴보는 것이 중요하다고 한다. 표본들의 특징을 살펴보기 위해 도표를 그려보거나 통계량 계산을 통해 알아보는데 통계량은 데이터 집계값을 이야기한다.

 

통계량의 대표적인 예로는 평균값이 있다. 평균값의 정의는 다들 알고 있으니 넘어가고, 평균값을 대푯값으로 많이 사용하는데 그 이유는 많은 데이터를 축약하여 이해하기 쉽고 효율적으로 다룰 수 있기 때문이다.

 

평균값은 다른말로 기댓값이라고도 한다. 기댓값은 아직 얻지 못한 데이터에도 적용 가능한 평균값으로 확률분포를 통해 계산할 수 있다. 이는 수학적으로 접근해보면 알 수 있을 것이다. 표본에서의 기댓값의 정의는 평균값과 똑같으며 그 이유는 수학적인 이유이다. 고등학교 시절 확률과 통계에서의 공식을 떠올려보자.

어떤 확률 분포표에서의 평균값은

이렇게 된다. Pk의 k가 아래첨자로 안내려가서 저렇게 할 수 밖에 없었다.

쨋든 이 공식은 확률분포를 통해 기댓값을 구하는 공식과 같아 표본에서는 기댓값과 평균값이 같게 되는 것이다.

그리고 데이터의 형상을 파악하는데 도움을 주는 분산은 데이터가 기댓값과 얼마나 떨어져있는지를 나타낸다. 분산이 작으면 데이터가 기댓값에 몰려있고, 분산이 크면 데이터는 기댓값과 많이 떨어져있다.

원래 그림도 못그리고 글도 잘 못쓴다. 그냥 기댓값을 중심으로 대칭형태인 종모양 그래프라는 것만 파악하시길...

때로는 기댓값과 분산만으로 데이터의 형상을 파악할 수 없는 경우가 있다. 이때는 히스토그램을 통해 데이터의 특징을 시각적으로 볼 수 있다.