[GUI] 11주차, 두 집단간 평균차이에 대한 가설 검증 및 분산분석, 카이제곱 검증

2022. 6. 20. 10:342022/GUI

반응형

서울여대 김예리 교수님의 'GUI를 활용한 데이터사이언스' 수업을 듣고 작성한 복습용 글입니다.

교재: 마케팅조사원론


두 집단간의 평균차이에 대한 가설 검증

  • 독립적 두 집단의 평균차이를 검증하는 경우
    • 서로 배타적이고 독립적인 두 집단간에 평균에서 차이가 있는지를 검증
    • 검증 통계량
      • 독립 t테스트, t통계량 이용
        • 독립 t테스트는 서로 독립인 두 집단간 차이를 검증할 때 사용함
        • 두 집단이 서로 독립이라는 것은 한 집단의 측정이 다른 집단의 측정에 영향을 미치지 않는 것임
        • 독립 t검정은 두 집단이 상호독립적임을 가정하는 경우 두 집단의 평균차이를 검정함
      • 두 집단의 분산이 동일하다고 가정하면 t통계량은 자유도가 n1 + n2 - 2인 t분포를 따름
      • t분포는 표본수가 증가하면 정규분포에 접근, 표본수 30 이상이면 t 분포는 정규분포와 동일함
      • 조사자가 가석채택 기준으로 유의수준 a=5%를 이용할 때, 양측검증을 이용하는 경우 a는 양쪽에 각각 2.5%씩 할당
      • 유의수준 5%, 자유도 198일 때 t통계량의 임계치는 1.96
  • 한 집단에서 짝을 이룬 값의 차이를 검증하는 경우
    • 동일 집단에 대한 마케팅 자극을 노출하기 전과 후의 효과를 검증
    • 대응짝 t검정
      • 동일한 집단에 대해 짝을 이루고 있는 표본의 값들 간의 차이를 검증할 때 사용
      • t통계량: 자유도가 n-1인 t분포를 따름
      • 가설채택 기준은 유의수준 5%를 이용하며, 단측검증 사용
      • 자유도 99, 유의수준 5%에서의 t통계량 임계치는 1.645

분산분석

  • ANOVA(Analysis of Variance)
    • 명목척도로 측정된 독립변수와 등간 또는 비율척도로 측정된 종속변수 사이의 관계를 연구하는 통계기법
    • 독립변수에 의해 분류된 두개 이상의 집단간의 평균값을 비교하는데 사용되는 통계기법
    • 검증 통계량은 F통계량을 사용함
    • 일원분산분석
      • 독립변수 1개
      • 하나의 범주형 독립변수와 종속변수간의 관계를 분석하는 통계기법
    • 다원분산분석
      • 독립변수 2개 이상
      • 둘 이상의 독립변수의 수준변화가 종속변수에 미치는 효과를 분석하는 통계기법
      • 각 독립변수의 변화가 종속변수에 미치는 영향인 주효과뿐만 아니라 독립변수들간의 상호작용 효과를 검증할 수 있음
        • 상호작용효과: 한 독립변수가 종속변수에 미치는 효과가 다른 독립변수의 변화에 의해 영향을 받는 경우
    • 분산분석 조건
      • 독립성: 각 집단은 독립적이어야 한다.
        • 한 집단에 대해 시간간격을 두고 종속변수의 값을 세번 측정한 후 이들간의 차이를 조사하는 경우 → 각 집단이 동일하므로 분산분석 적용이 어려움
        • 무작위 표본으로 선정되어 각 집단이 서로 관계가 없어야 함
      • 정규성: 모집단은 정규분포를 이루어야 함
        • 각 집단별로 표본 수가 30개 이상 되어야 함
        • 어느 한 집단의 표본수가 적은 경우, 이를 제거하거나 가장 유사한 집단과 합쳐 분석 실시
      • 등분산성: 집단별 분산의 정도가 비슷해야 함
        • 집단간의 분산 차이가 너무 크면 평균 비교의 의미가 없음
        • 분산분석의 적용에 앞서 집단별 분산의 크기를 검토해야 함
    • 외생변수 통제(ANCOVA): 독립변수 이외의 외생변수의 효과를 고려할 필요가 있음

카이제곱 검증

  • 집단별로 명목척도나 서열척도로 측정된 변수의 분표에 차이가 있는지를 파악하기 위한 통계기법
  • 관찰 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 방법
  • 카이제곱 통계량
    • 관찰된 빈도가 기대되는 빈도와 차이가 나는 정도를 나타내는 것
    • 관찰된 빈도와 기대되는 빈도의 차이가 클수록 카이제곱 통계량은 커짐
    • 카이제곱 통계량이 커질수록 두 특성(변수)간의 관계까 있음
    • 유의수준 5%, 자유도 4일 때 임계치 9.49
반응형