[GUI] 13주차, 요인분석과 군집분석

[GUI] 13주차, 요인분석과 군집분석

2022. 6. 20. 10:37ㆍ2022/GUI

서울여대 김예리 교수님의 'GUI를 활용한 데이터사이언스' 수업을 듣고 작성한 복습용 글입니다.

교재: 마케팅조사원론

요인분석

다수의 변수들을 유사한 성격을 가진 항목들끼리 묶어 적은 수의 요인으로 축약시키는 것
변수간의 상관관계를 고려해 유사한 변수끼리 묶어줌
수집된 자료에 유사한 성격의 변수들이 많이 포함되어있는 경우 변수에 포함되어 있는 정보의 손실을 최소화 하며 소수의 요인으로 축약함
요인분석 조건
- 계량형 척도(등간척도 또는 비율척도로 측정된 변수)
- 정규분포를 따라야 함
- 관찰치는 상호독립적이어야 하며, 분산이 같아야 함
- 표본수는 최소 50이상, 100이상이 바람직함
요인분석 이용 목적
- 자료의 요약: 여러개의 변수들을 몇개의 공통된 집단으로 묶음으로써 자료의 복잡성을 줄이고 정보를 요약하는데 이용
- 변수 구조 파악: 수많은 입력변수들이 서로 어떻게 상관되는지 파악, 여러개의 변수들을 동질적인 몇개의 요인으로 묶어, 변수들 간에 존재하는 상호독립적 특성 발견에 이용
- 불필요한 변수의 제거: 변수군으로 묶이지 않은 변수를 제거하여 중요하지 않은 변수 선별 가능, 불필요한 변수와 자료를 제거함으로써 모델의 성능이 높아짐
- 측정도구의 타당성 검증: 동일한 개념을 측정한 변수들이 동일한 요인으로 묶이는지 확인함으로써 측정도구의 타당성 검증 가능, 요인분석을 통해 새로운 변수를 만든 후 분석을 수행하면 다중공선성의 문제를 해결할 수 있음
- 요인점수를 이용한 새 변수의 생성: 회귀분석, 판별분석, 군집분석 등에 적용, 원 자료의 많은 변수들을 묶거나 제거하여, 본래의 변수보다 더 적절한 변수들을 생성하여 차후의 분석을 용이하게 해줌
상관관계의 계산과 주성분 분석의 실시
- 요인분석 초기 단계에서는 변수들간의 상관계수 계싼
- 계산된 상관관계 행렬 검토: 특정 변수는 유사한 다른 변수와 높은 상관관계를 가짐, 변수들간의 상관관계가 높다는 것은 하나의 요인으로 나타낼 수 있는 것을 의미
- 요인 추출 방법
  - 주성분 분석(PCA, Principal Component Analysis): 가장 맣이 사용하는 요인 추출 방법으로 자료의 총 분산을 이용하여 요인을 추출함
    - 상관관계 행렬을 토대로 변수들간의 공통적 성격을 가장 많이 설명해줄 요인을 우선적으로 추출
    - 첫번째 요인과 독립이며 변수들간의 공통분산을 그 다음으로 설명해줄 요인을 추출
    - 이 과정을 반복하여 원래 변수 수만큼 요인 추출
주성분표 해석방법
- 아이겐값(Eigenvalue): 각 요인이 기존의 변수의 정보를 어느정도 설명하는지 나타내는 지표
  - 하나의 변수 정보양을 1이라고 했을 때, 추출된 요인에 포함된 상대적 정보 양을 보여주는 것
  - 예를들어 7개의 요인이 있을 때, 아이겐값을 모두 더하면 7이 됨
- 커뮤낼리티(공통성, Communality): 추출된 요인들이 각 변수를 어느정도 설명하는지 보여주는 지표
  - 변수의 수만큼 7개의 요인이 추출되었기에, 각 변수의 분산이 요인들에 의해 100% 설명됨을 보여줌
요인의 수를 결정하는 방법
- 아이겐값을 기준으로 결정하는 방법
  - 추출된 각 요인에 포함된 정보량이 최소한 원래 변수에 담겨진 정보량보다 많아야, 요인분석의 의미가 있음 → 요인분석의 목적이 변수의 수를 줄이는 것
  - 따라서 아이겐값이 1 이상인 요인들의 수만큼 요인 추출
- 전체 설명력의 합을 기준으로 요인의 수를 결정하는 방법
  - 요인들의 설명력의 합이 어느정도 되어야 한다는 것을 사전에 정하고, 그 수준의 설명력을 가져오는 요인들을 추출하는 방법
  - 절대적 기준은 없으나 보통 60% 내외를 기준으로 함
- 스크리도표를 활용하는 방법
  - 스크리도표는 각 요인의 아이겐값을 그림으로 보여줌
  - 아이겐값이 하락하다 급격한 하락에서 완만한 하락으로 추세가 바뀌는 지점에서 요인의 수를 결정하는 방식

군집분석

데이터가 속해있는 군집을 모르는 상태에서 유사한 데이터끼리 군집으로 묶어주는 분석 기법
소비자, 제품 등 조사 대상들이 공유하고 있는 특성을 토대로 유사한 대상들끼리 그룹핑하는 통계기법
군집분석 이용 상황
- 시장 세분화
  - 인구통계학적 변수(성별, 연령별, 직업별 등) 또는 제품 사용상의 특성 변수(선호 브랜드, 구매량, 구매장소 등)들을 이용해 비슷한 특성의 소비자들끼리 묶어주는 시장 세분화 분석 도구로 활용
- 시장내의 경쟁관계 파악
  - 시장내의 경쟁브랜드들에 대하여 소비자들에 의해 유사하게 지각되는 브랜드들끼리 묶어줌으로써 시장 내의 브랜드들간의 경쟁관계를 파악하는데 활용
- 기타
  - 데이터를 유사한 개체끼리 묶었을 때 데이터에 어떤 의미가 있는지 파악하고자 하는 경우에 활용
  - 데이터 구조 이해를 목적으로 분석 초기에 탐색적 분석 단계에서 군집분석을 많이 활용
적용과정
- 변수선정
  - 조사 대상들간의 유사성 정도를 측정할 때 이용할 변수들을 선정
  - 소비자들을 대상으로 실시한 심청면접 또는 사전조사를 ㅌ롱해 조사 대상들의 분류에 유의한 것으로 밝혀진 변수들 선정
  - 이 변수들을 이용해 각 측정대상들간의 유사성 측정
- 유사성 계산
  - 조사대상 제품들에 대한 평가자료를 토대로 조사대상들간 유사성 지표인 거리를 계산
  - 조사대상들간의 거리가 가까울수록 유사한 것으로 해석
  - 거리를 계산하는 공식으로 유클리디안 거리 등이 있음
    - 유클리디안 거리는 각 변수를 축으로 하는 좌표상에 조사대상의 위치를 표시하고 피타고라스 정리를 이용하여 거리를 계산하는 방법
  - 각 대상들간의 거리를 계산한 후 하나의 거리행렬로 만들어줌
- 유사한 대상 그룹핑
  - 거리행렬에 나타난 지표를 이용하여 유사한 조사대상들을 묶어주는 과정
  - 기존 집단과 새로운 대상간 거리 계산 방법은 3가지가 있는데, 그중 결합 방식을 가장 많이 사용
    - 단일결합방식: 현재 집단의 구성원 중 가장 가까운 위치에 있는 집단 구성원과의 거리를 기준으로 다음 대상을 선택하여 새로운 집단 구성원으로 묶는 방식
    - 완전결합방식: 대상과 가장 먼 거리에 있는 집단구성원과의 거리를 기준으로 다음 대상을 선택하여 새로운 집단 구성원으로 묶는 방식
    - 평균결합방식: 집단 내 대상들의 중간 위치(평균값)를 기준으로 거리를 계산하는 방식
- 군집수 결정 및 군집명 부여
  - 군집들간의 특성차이를 가장 유의하게 보여주는 군집의 수 결정
  - 각 군집별로 적절한 이름을 붙여줌
군집분석의 유용성 및 한계
- 유용성
  - 조사 대상들의 특성을 이용해 이들을 여러 집단으로 분류해주는 분석기법
  - 시장 세분화나 시장 내 브랜드들간의 경쟁구조 파악에 유용
- 한계
  - 군집분석의 실행과정이 매우 임의적이어서 분석의 신뢰성이 낮음
    - 변수 선정, 거리 계산방법, 대상을 묶는 방법, 군집의 수 선택에 객관적인 기준보다는 연구자의 주관적 판단에 의존
    - 어떤 변수 또는 어떤 방식을 활요하느냐에 따라 결과가 달라질 수 있음
  - 대상이 많아지면 거리 계산 시간이 오래걸리고, 덴드로그램으로 표현하기도 어려움
    - 모든 대상들간의 거리를 계산하여 거리 행렬을 만들어야하므로 계산 횟수가 많아짐
    - 계층적 군집분석의 한계를 극복하기 위해 비계층적 군집분석 k-means 분석을 많이 이용함
K-means 군집분석
- 집단의 수 K를 미리 정하고, 전체 대상자를 K개의 집단으로 구분하는 방법
  - 최적의 집단 수를 모르는 경우, 2~5개 정도의 집단 수에 대해 분석을 반복 후, 집단간의 차이가 가장 명확하게 나타나는 분석결과를 제시하는 집단 수를 최적안으로 결정
- K-means 과정
  - 집단수 K와 변수를 지정
    - 몇개 집단으로 분류할지 생각해 분류할 집단 수 K와 대상자들의 거리를 계산하는데 사용될 변수 지정
    - 임의의 K개의 데이터 포인트가 시드로 선택됨
  - 시드를 중심으로 집단 생성
    - 각각 응답자들을 가장 가까운 시드에 배정하여 하나의 집단으로 묶고 중심점을 계산함
  - 중심(새로운 시드)을 이동
    - 집단의 중심점(새로운 시드)을 기준으로 각각의 응답자들을 가장 가까운 중심점에 배정하고 중심점을 다시 계산
  - 반복 및 종료
    - 집단의 경계가 더이상 변하지 않을 때까지 위의 단계를 반복
    - 과정이 종료되면 K개의 집단별 변수들의 중심점과 각 대상들이 어느 집단에 묶였는지 결과로 제시
- 장단점
  - 장점
    - 계층적 군집화보다 계산이 빠름
    - 보다 안정적인 결과를 제시함
  - 단점
    - 군집수를 미리 정해야 함
      - K-means는 군집수에 따라 군집 품질이 달라짐
      - 경우에 따라 군집 수를 정하는 것부터 수십번 반복
    - 기준 변수에 따라 결과가 달라질 수 있음
    - 이상치에 민감
      - 일부 대상이 중심에서 너무 떨어져 있으면 평균을 계산하는 과정에서 중심점이 다른 곳으로 튕겨져 나가는 경우 발생

저작자표시 비영리 변경금지 (새창열림)

'2022 > GUI' 카테고리의 다른 글

[GUI] 12주차, 상관관계와 회귀분석 (1)	2022.06.20
[GUI] 11주차, 두 집단간 평균차이에 대한 가설 검증 및 분산분석, 카이제곱 검증 (0)	2022.06.20
[GUI] 10주차, 가설과 가설 검증 (1)	2022.06.20
[GUI] 표본조사와 전수조사 (0)	2022.05.12
[GUI] 측정의 오류, 신뢰성과 타당성 (1)	2022.04.20

Data Science 전공생의 기록장

Data Science 전공생의 기록장

태그

최근글

댓글

공지사항

아카이브

요인분석

군집분석

'2022 > GUI' 카테고리의 다른 글

관련글

티스토리툴바