[GUI] 12주차, 상관관계와 회귀분석
2022. 6. 20. 10:36ㆍ2022/GUI
반응형
서울여대 김예리 교수님의 'GUI를 활용한 데이터사이언스' 수업을 듣고 작성한 복습용 글입니다.
교재: 마케팅조사원론
상관관계와 상관계수
- 상관계수
- 등간 또는 비율척도로 측정된 두 변수간의 연관 정도
- 한 변수의 증감에 따른 다른 변수의 변화를 보여주는 지표
- 선형의 정도 측정 지표
- -1~1의 값을 가짐
- 0: 완전 독립
- 0.4 이상: 높은 상관관계
- 0.7 이상: 매우 높은 상관관계
- 1: 완전 상관
- 피어슨 상관계수 → 모수적 상관계수
- 두 변수 모두 등간척도 혹은 비율척도로 측정된 경우, 두 변수간의 선형적 상관관계 측정에 사용
- 상관계수 값: -1~1
- 스피어만 상관계수 → 비모수적 상관계수
- 두 변수가 서열척도로 측정되거나 두 연속형 변수 분포가 정규분포를 심하게 벗어난 경우에 사용
회귀분석
- 상관계수의 한계점
- 변수 값 예측 불가
- 두 변수간의 양 또는 음의 관계가 있다는 것만 제시 가능, 하지만 한 변수의 증감에 따른 다른 변수의 변화를 예측할 수 없음
- 여러 변수가 동시에 한 변수에 미치는 영향 설명 불가
- 두 변수간의 관계 유무만 파악 가능
- 둘 이상의 변수가 동시에 한 변수에 영향을 미치는지 파악 불가
- 변수 값 예측 불가
- 회귀변수의 이용 목적
- 독립변수 변화에 따른 종속변수 변화 예측
- 독립변수는 계량변수를 이용하는 것이 원칙이나 명목척도를 이용하는 경우 더미변수로 변경 후 이용 가능
- 종속변수는 계량변수만 이용해야 함
- 독립변수가 종속변수에 미치는 영향의 정도 및 유의성 파악
- 각 독립변수의 값이 한 단위 증가 또는 감소할 때 종속변수에 미치는 변화를 알 수 있음
- 종속변수 변화 예측
- 독립변수 변화에 따른 종속변수 변화 예측
- 단순회귀분석
- 하나의 독립변수와 종속변수와의 관계를 선형관계식으로 표시
- 독립변수와 종속변수에 관한 관찰자료를 이용하여 회귀계수를 추정하는 통계기법
- 독립변수와 종속변수의 관계를 가장 잘 나타내는 회귀선을 찾아내는 방법
- 회귀선: 독립변수와 종속변수의 관계를 나타내는 직선
- Yi=α+βXi+ξi
- Yi: 종속변수
- Xi: 독립변수
- ξi: 오류항(잔차) = 관찰값과 회귀식에 의해 얻어진 값의 차이, 회귀선으로 설명되지 못하는 부분을 나타냄
- α, β: 추정되어야 할 회귀계수
- 회귀분석의 가정
- 선형성: 독립변수와 종속변수간의 관계 분포가 선형관계를 가진다는 가정
- 독립성: 각 관측치들의 분산은 독립적이라는 가정, 다중회귀분석에서는 독립변수와 다른 독립변수간 상관관계가 적어야 함
- 잔차의 등분산성: 오류항의 분산은 모든 관측치에 대해 동일하다는 가정, 잔차가 특정한 패턴을 보이지 않아야 함
- 잔차의 정규성: 오류항은 정규분포라는 가정, 오류항의 기댓값은 0
- 최소제곱법을 이용한 회귀계수 추정방법
- 4가지 가정이 충족되면 독립변수와 종속변수간의 관계 파악을 위해 두 모수를 추정
- 잔차 제곱의 합을 최소화시키는 모수 추정
- 회귀계수 유의성과 설명력 평가
- 유의성 검증
- 유의수준 5%, 자유도 8에서의 임계치 t값: 1.86
- 설명력 평가
- 추정된 회귀계수가 모두 통계적으로 유의해도 회귀식의 종속변수에 대한 설명력 차이 존재 가능
- 결정계수(R^2): 회귀식이 종속변수의 분산 설명 정도를 제시함
- 0~1 사이의 값으로 1에 가까울수록 설명력이 커짐
- 조정된 결정계수: 조정된 결정계수와 R^2과의 차이는 독립변수의 개수 고려 여부
- 독립변수의 개수가 많아지면 R^2이 1에 가까워짐
- 독립변수의 개수를 고려한 조정된 결정계수 활용
- 유의성 검증
- 회귀모형 적합도 분석
- 추정값 표준오차 이용
- 분산분석표 이용
- 유의성 검증
- 검정통계량 F값이 임계치보다 크면 귀무가설 기각
- F통계량의 p-value가 작으면 유의한 회귀계수가 있음
- 설명력 평가
- 총 분산에서 설명된 분산의 비율
- 1에 가까울수록 설명력 높음
- 유의성 검증
- 다중회귀분석
- 다중회귀식 추정방법
- 동시적 변수 입력방법
- 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석
- 장점
- 다른 변수들은 통제상테에서 특정 독립변수의 영향력 파악 가능
- 연구자가 고려하는 모든 독립변수들이 동시에 종속변수 설명 정도 파악 가능
- 단계적 변수 입력 방법
- 여러 독립변수 중 가장 설명력이 높은 변수부터 모형에 순차 포함
- 첫단계: 종속변수와 상관관계가 가장 높은 변수를 회귀식에 포함
- 다음 단계부터: 아직 회귀식에 들어가지 않은 변수 중 종속변수와 가장 높은 편상관관계를 갖는 변수를 포함시킴
- 변수선택
- F값 혹은 p값을 지정하여 진입조건을 충족하는 변수가 없을 시 종료
- 여러 독립변수 중 가장 설명력이 높은 변수부터 모형에 순차 포함
- 변수 입력 방법
- 전진: 상관관계가 높은 독립변수의 순서로 회귀식에 진입
- 후진: 모든 독립변수들이 한꺼번에 들어가서, 각 단계에서 종속변수에 대한 설명력이 낮은 순서로 제거
- 동시적 변수 입력방법
- 다중공선성
- 두개이상의 독립변수 간 상관관계가 높은 경우 발생
- 추정된 모수의 유의성이 낮아져 회귀분석이 의미가 없어짐
- 다중공선성이 존재하는 경우 추정된 계수가 통계적으로 유의하지 않을 수 있음
- 변수간의 높은 상관관계로 인해 한 변수의 설명력이 다른 변수에 의해 흡수
- 존재 여부 확인 방법
- 상관계수 혹은 VIF를 통해 확인
- 독립변수간의 상관계수가 너무 큰 경우 다중공선성이 발생
- 공차(허용오차, 공차 한계: tolerance): 0.1보다 커야 다중공선성에 문제가 없다고 봄
- VIF(variance inflation factor): 변수가 추가됨으로써 다른 변수 추정치의 분산을 증가시키는 정도, 공차의 역수는 VIF값
- VIF가 클수록 공선성 발생 가능성이 높음, 10보다 작아야 다중공선성 문제X
- 해결방안
- 변수들간의 상관계수 사전 파악 후 상관계수가 높은 두 변수 중 하나를 회귀식에서 제거
- 단계적 변수 입력방법 이용, 상관계수가 높은 변수들 중 가장 설명력있는 독립변수들만 모형에 포함
- 상관계수 혹은 VIF를 통해 확인
- 다중회귀식 추정방법
반응형
'2022 > GUI' 카테고리의 다른 글
[GUI] 13주차, 요인분석과 군집분석 (0) | 2022.06.20 |
---|---|
[GUI] 11주차, 두 집단간 평균차이에 대한 가설 검증 및 분산분석, 카이제곱 검증 (0) | 2022.06.20 |
[GUI] 10주차, 가설과 가설 검증 (0) | 2022.06.20 |
[GUI] 표본조사와 전수조사 (0) | 2022.05.12 |
[GUI] 측정의 오류, 신뢰성과 타당성 (0) | 2022.04.20 |