[GUI] 12주차, 상관관계와 회귀분석

2022. 6. 20. 10:362022/GUI

서울여대 김예리 교수님의 'GUI를 활용한 데이터사이언스' 수업을 듣고 작성한 복습용 글입니다.

교재: 마케팅조사원론


상관관계와 상관계수

  • 상관계수
    • 등간 또는 비율척도로 측정된 두 변수간의 연관 정도
    • 한 변수의 증감에 따른 다른 변수의 변화를 보여주는 지표
    • 선형의 정도 측정 지표
      • -1~1의 값을 가짐
      • 0: 완전 독립
      • 0.4 이상: 높은 상관관계
      • 0.7 이상: 매우 높은 상관관계
      • 1: 완전 상관
    • 피어슨 상관계수 → 모수적 상관계수
      • 두 변수 모두 등간척도 혹은 비율척도로 측정된 경우, 두 변수간의 선형적 상관관계 측정에 사용
      • 상관계수 값: -1~1
    • 스피어만 상관계수 → 비모수적 상관계수
      • 두 변수가 서열척도로 측정되거나 두 연속형 변수 분포가 정규분포를 심하게 벗어난 경우에 사용

회귀분석

  • 상관계수의 한계점
    • 변수 값 예측 불가
      • 두 변수간의 양 또는 음의 관계가 있다는 것만 제시 가능, 하지만 한 변수의 증감에 따른 다른 변수의 변화를 예측할 수 없음
    • 여러 변수가 동시에 한 변수에 미치는 영향 설명 불가
      • 두 변수간의 관계 유무만 파악 가능
      • 둘 이상의 변수가 동시에 한 변수에 영향을 미치는지 파악 불가
  • 회귀변수의 이용 목적
    • 독립변수 변화에 따른 종속변수 변화 예측
      • 독립변수는 계량변수를 이용하는 것이 원칙이나 명목척도를 이용하는 경우 더미변수로 변경 후 이용 가능
      • 종속변수는 계량변수만 이용해야 함
    • 독립변수가 종속변수에 미치는 영향의 정도 및 유의성 파악
      • 각 독립변수의 값이 한 단위 증가 또는 감소할 때 종속변수에 미치는 변화를 알 수 있음
    • 종속변수 변화 예측
  • 단순회귀분석
    • 하나의 독립변수와 종속변수와의 관계를 선형관계식으로 표시
    • 독립변수와 종속변수에 관한 관찰자료를 이용하여 회귀계수를 추정하는 통계기법
    • 독립변수와 종속변수의 관계를 가장 잘 나타내는 회귀선을 찾아내는 방법
      • 회귀선: 독립변수와 종속변수의 관계를 나타내는 직선
    • Yi=α+βXi+ξi
      • Yi: 종속변수
      • Xi: 독립변수
      • ξi: 오류항(잔차) = 관찰값과 회귀식에 의해 얻어진 값의 차이, 회귀선으로 설명되지 못하는 부분을 나타냄
      • α, β: 추정되어야 할 회귀계수
    • 회귀분석의 가정
      • 선형성: 독립변수와 종속변수간의 관계 분포가 선형관계를 가진다는 가정
      • 독립성: 각 관측치들의 분산은 독립적이라는 가정, 다중회귀분석에서는 독립변수와 다른 독립변수간 상관관계가 적어야 함
      • 잔차의 등분산성: 오류항의 분산은 모든 관측치에 대해 동일하다는 가정, 잔차가 특정한 패턴을 보이지 않아야 함
      • 잔차의 정규성: 오류항은 정규분포라는 가정, 오류항의 기댓값은 0
    • 최소제곱법을 이용한 회귀계수 추정방법
      • 4가지 가정이 충족되면 독립변수와 종속변수간의 관계 파악을 위해 두 모수를 추정
      • 잔차 제곱의 합을 최소화시키는 모수 추정
    • 회귀계수 유의성과 설명력 평가
      • 유의성 검증
        • 유의수준 5%, 자유도 8에서의 임계치 t값: 1.86
      • 설명력 평가
        • 추정된 회귀계수가 모두 통계적으로 유의해도 회귀식의 종속변수에 대한 설명력 차이 존재 가능
        • 결정계수(R^2): 회귀식이 종속변수의 분산 설명 정도를 제시함
          • 0~1 사이의 값으로 1에 가까울수록 설명력이 커짐
        • 조정된 결정계수: 조정된 결정계수와 R^2과의 차이는 독립변수의 개수 고려 여부
          • 독립변수의 개수가 많아지면 R^2이 1에 가까워짐
          • 독립변수의 개수를 고려한 조정된 결정계수 활용
    • 회귀모형 적합도 분석
      • 추정값 표준오차 이용
      • 분산분석표 이용
        • 유의성 검증
          • 검정통계량 F값이 임계치보다 크면 귀무가설 기각
          • F통계량의 p-value가 작으면 유의한 회귀계수가 있음
        • 설명력 평가
          • 총 분산에서 설명된 분산의 비율
          • 1에 가까울수록 설명력 높음
  • 다중회귀분석
    • 다중회귀식 추정방법
      • 동시적 변수 입력방법
        • 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석
        • 장점
          • 다른 변수들은 통제상테에서 특정 독립변수의 영향력 파악 가능
          • 연구자가 고려하는 모든 독립변수들이 동시에 종속변수 설명 정도 파악 가능
      • 단계적 변수 입력 방법
        • 여러 독립변수 중 가장 설명력이 높은 변수부터 모형에 순차 포함
          • 첫단계: 종속변수와 상관관계가 가장 높은 변수를 회귀식에 포함
          • 다음 단계부터: 아직 회귀식에 들어가지 않은 변수 중 종속변수와 가장 높은 편상관관계를 갖는 변수를 포함시킴
        • 변수선택
          • F값 혹은 p값을 지정하여 진입조건을 충족하는 변수가 없을 시 종료
      • 변수 입력 방법
        • 전진: 상관관계가 높은 독립변수의 순서로 회귀식에 진입
        • 후진: 모든 독립변수들이 한꺼번에 들어가서, 각 단계에서 종속변수에 대한 설명력이 낮은 순서로 제거
    • 다중공선성
      • 두개이상의 독립변수 간 상관관계가 높은 경우 발생
      • 추정된 모수의 유의성이 낮아져 회귀분석이 의미가 없어짐
      • 다중공선성이 존재하는 경우 추정된 계수가 통계적으로 유의하지 않을 수 있음
      • 변수간의 높은 상관관계로 인해 한 변수의 설명력이 다른 변수에 의해 흡수
      • 존재 여부 확인 방법
        • 상관계수 혹은 VIF를 통해 확인
          • 독립변수간의 상관계수가 너무 큰 경우 다중공선성이 발생
          • 공차(허용오차, 공차 한계: tolerance): 0.1보다 커야 다중공선성에 문제가 없다고 봄
          • VIF(variance inflation factor): 변수가 추가됨으로써 다른 변수 추정치의 분산을 증가시키는 정도, 공차의 역수는 VIF값
          • VIF가 클수록 공선성 발생 가능성이 높음, 10보다 작아야 다중공선성 문제X
        • 해결방안
          • 변수들간의 상관계수 사전 파악 후 상관계수가 높은 두 변수 중 하나를 회귀식에서 제거
          • 단계적 변수 입력방법 이용, 상관계수가 높은 변수들 중 가장 설명력있는 독립변수들만 모형에 포함