[GUI] 13주차, 요인분석과 군집분석

2022. 6. 20. 10:372022/GUI

서울여대 김예리 교수님의 'GUI를 활용한 데이터사이언스' 수업을 듣고 작성한 복습용 글입니다.

교재: 마케팅조사원론


요인분석

  • 다수의 변수들을 유사한 성격을 가진 항목들끼리 묶어 적은 수의 요인으로 축약시키는 것
  • 변수간의 상관관계를 고려해 유사한 변수끼리 묶어줌
  • 수집된 자료에 유사한 성격의 변수들이 많이 포함되어있는 경우 변수에 포함되어 있는 정보의 손실을 최소화 하며 소수의 요인으로 축약함
  • 요인분석 조건
    • 계량형 척도(등간척도 또는 비율척도로 측정된 변수)
    • 정규분포를 따라야 함
    • 관찰치는 상호독립적이어야 하며, 분산이 같아야 함
    • 표본수는 최소 50이상, 100이상이 바람직함
  • 요인분석 이용 목적
    • 자료의 요약: 여러개의 변수들을 몇개의 공통된 집단으로 묶음으로써 자료의 복잡성을 줄이고 정보를 요약하는데 이용
    • 변수 구조 파악: 수많은 입력변수들이 서로 어떻게 상관되는지 파악, 여러개의 변수들을 동질적인 몇개의 요인으로 묶어, 변수들 간에 존재하는 상호독립적 특성 발견에 이용
    • 불필요한 변수의 제거: 변수군으로 묶이지 않은 변수를 제거하여 중요하지 않은 변수 선별 가능, 불필요한 변수와 자료를 제거함으로써 모델의 성능이 높아짐
    • 측정도구의 타당성 검증: 동일한 개념을 측정한 변수들이 동일한 요인으로 묶이는지 확인함으로써 측정도구의 타당성 검증 가능, 요인분석을 통해 새로운 변수를 만든 후 분석을 수행하면 다중공선성의 문제를 해결할 수 있음
    • 요인점수를 이용한 새 변수의 생성: 회귀분석, 판별분석, 군집분석 등에 적용, 원 자료의 많은 변수들을 묶거나 제거하여, 본래의 변수보다 더 적절한 변수들을 생성하여 차후의 분석을 용이하게 해줌
  • 상관관계의 계산과 주성분 분석의 실시
    • 요인분석 초기 단계에서는 변수들간의 상관계수 계싼
    • 계산된 상관관계 행렬 검토: 특정 변수는 유사한 다른 변수와 높은 상관관계를 가짐, 변수들간의 상관관계가 높다는 것은 하나의 요인으로 나타낼 수 있는 것을 의미
    • 요인 추출 방법
      • 주성분 분석(PCA, Principal Component Analysis): 가장 맣이 사용하는 요인 추출 방법으로 자료의 총 분산을 이용하여 요인을 추출함
        • 상관관계 행렬을 토대로 변수들간의 공통적 성격을 가장 많이 설명해줄 요인을 우선적으로 추출
        • 첫번째 요인과 독립이며 변수들간의 공통분산을 그 다음으로 설명해줄 요인을 추출
        • 이 과정을 반복하여 원래 변수 수만큼 요인 추출
  • 주성분표 해석방법
    • 아이겐값(Eigenvalue): 각 요인이 기존의 변수의 정보를 어느정도 설명하는지 나타내는 지표
      • 하나의 변수 정보양을 1이라고 했을 때, 추출된 요인에 포함된 상대적 정보 양을 보여주는 것
      • 예를들어 7개의 요인이 있을 때, 아이겐값을 모두 더하면 7이 됨
    • 커뮤낼리티(공통성, Communality): 추출된 요인들이 각 변수를 어느정도 설명하는지 보여주는 지표
      • 변수의 수만큼 7개의 요인이 추출되었기에, 각 변수의 분산이 요인들에 의해 100% 설명됨을 보여줌
  • 요인의 수를 결정하는 방법
    • 아이겐값을 기준으로 결정하는 방법
      • 추출된 각 요인에 포함된 정보량이 최소한 원래 변수에 담겨진 정보량보다 많아야, 요인분석의 의미가 있음 → 요인분석의 목적이 변수의 수를 줄이는 것
      • 따라서 아이겐값이 1 이상인 요인들의 수만큼 요인 추출
    • 전체 설명력의 합을 기준으로 요인의 수를 결정하는 방법
      • 요인들의 설명력의 합이 어느정도 되어야 한다는 것을 사전에 정하고, 그 수준의 설명력을 가져오는 요인들을 추출하는 방법
      • 절대적 기준은 없으나 보통 60% 내외를 기준으로 함
    • 스크리도표를 활용하는 방법
      • 스크리도표는 각 요인의 아이겐값을 그림으로 보여줌
      • 아이겐값이 하락하다 급격한 하락에서 완만한 하락으로 추세가 바뀌는 지점에서 요인의 수를 결정하는 방식

군집분석

  • 데이터가 속해있는 군집을 모르는 상태에서 유사한 데이터끼리 군집으로 묶어주는 분석 기법
  • 소비자, 제품 등 조사 대상들이 공유하고 있는 특성을 토대로 유사한 대상들끼리 그룹핑하는 통계기법
  • 군집분석 이용 상황
    • 시장 세분화
      • 인구통계학적 변수(성별, 연령별, 직업별 등) 또는 제품 사용상의 특성 변수(선호 브랜드, 구매량, 구매장소 등)들을 이용해 비슷한 특성의 소비자들끼리 묶어주는 시장 세분화 분석 도구로 활용
    • 시장내의 경쟁관계 파악
      • 시장내의 경쟁브랜드들에 대하여 소비자들에 의해 유사하게 지각되는 브랜드들끼리 묶어줌으로써 시장 내의 브랜드들간의 경쟁관계를 파악하는데 활용
    • 기타
      • 데이터를 유사한 개체끼리 묶었을 때 데이터에 어떤 의미가 있는지 파악하고자 하는 경우에 활용
      • 데이터 구조 이해를 목적으로 분석 초기에 탐색적 분석 단계에서 군집분석을 많이 활용
  • 적용과정
    • 변수선정
      • 조사 대상들간의 유사성 정도를 측정할 때 이용할 변수들을 선정
      • 소비자들을 대상으로 실시한 심청면접 또는 사전조사를 ㅌ롱해 조사 대상들의 분류에 유의한 것으로 밝혀진 변수들 선정
      • 이 변수들을 이용해 각 측정대상들간의 유사성 측정
    • 유사성 계산
      • 조사대상 제품들에 대한 평가자료를 토대로 조사대상들간 유사성 지표인 거리를 계산
      • 조사대상들간의 거리가 가까울수록 유사한 것으로 해석
      • 거리를 계산하는 공식으로 유클리디안 거리 등이 있음
        • 유클리디안 거리는 각 변수를 축으로 하는 좌표상에 조사대상의 위치를 표시하고 피타고라스 정리를 이용하여 거리를 계산하는 방법
      • 각 대상들간의 거리를 계산한 후 하나의 거리행렬로 만들어줌
    • 유사한 대상 그룹핑
      • 거리행렬에 나타난 지표를 이용하여 유사한 조사대상들을 묶어주는 과정
      • 기존 집단과 새로운 대상간 거리 계산 방법은 3가지가 있는데, 그중 결합 방식을 가장 많이 사용
        • 단일결합방식: 현재 집단의 구성원 중 가장 가까운 위치에 있는 집단 구성원과의 거리를 기준으로 다음 대상을 선택하여 새로운 집단 구성원으로 묶는 방식
        • 완전결합방식: 대상과 가장 먼 거리에 있는 집단구성원과의 거리를 기준으로 다음 대상을 선택하여 새로운 집단 구성원으로 묶는 방식
        • 평균결합방식: 집단 내 대상들의 중간 위치(평균값)를 기준으로 거리를 계산하는 방식
    • 군집수 결정 및 군집명 부여
      • 군집들간의 특성차이를 가장 유의하게 보여주는 군집의 수 결정
      • 각 군집별로 적절한 이름을 붙여줌
  • 군집분석의 유용성 및 한계
    • 유용성
      • 조사 대상들의 특성을 이용해 이들을 여러 집단으로 분류해주는 분석기법
      • 시장 세분화나 시장 내 브랜드들간의 경쟁구조 파악에 유용
    • 한계
      • 군집분석의 실행과정이 매우 임의적이어서 분석의 신뢰성이 낮음
        • 변수 선정, 거리 계산방법, 대상을 묶는 방법, 군집의 수 선택에 객관적인 기준보다는 연구자의 주관적 판단에 의존
        • 어떤 변수 또는 어떤 방식을 활요하느냐에 따라 결과가 달라질 수 있음
      • 대상이 많아지면 거리 계산 시간이 오래걸리고, 덴드로그램으로 표현하기도 어려움
        • 모든 대상들간의 거리를 계산하여 거리 행렬을 만들어야하므로 계산 횟수가 많아짐
        • 계층적 군집분석의 한계를 극복하기 위해 비계층적 군집분석 k-means 분석을 많이 이용함
  • K-means 군집분석
    • 집단의 수 K를 미리 정하고, 전체 대상자를 K개의 집단으로 구분하는 방법
      • 최적의 집단 수를 모르는 경우, 2~5개 정도의 집단 수에 대해 분석을 반복 후, 집단간의 차이가 가장 명확하게 나타나는 분석결과를 제시하는 집단 수를 최적안으로 결정
    • K-means 과정
      • 집단수 K와 변수를 지정
        • 몇개 집단으로 분류할지 생각해 분류할 집단 수 K와 대상자들의 거리를 계산하는데 사용될 변수 지정
        • 임의의 K개의 데이터 포인트가 시드로 선택됨
      • 시드를 중심으로 집단 생성
        • 각각 응답자들을 가장 가까운 시드에 배정하여 하나의 집단으로 묶고 중심점을 계산함
      • 중심(새로운 시드)을 이동
        • 집단의 중심점(새로운 시드)을 기준으로 각각의 응답자들을 가장 가까운 중심점에 배정하고 중심점을 다시 계산
      • 반복 및 종료
        • 집단의 경계가 더이상 변하지 않을 때까지 위의 단계를 반복
        • 과정이 종료되면 K개의 집단별 변수들의 중심점과 각 대상들이 어느 집단에 묶였는지 결과로 제시
    • 장단점
      • 장점
        • 계층적 군집화보다 계산이 빠름
        • 보다 안정적인 결과를 제시함
      • 단점
        • 군집수를 미리 정해야 함
          • K-means는 군집수에 따라 군집 품질이 달라짐
          • 경우에 따라 군집 수를 정하는 것부터 수십번 반복
        • 기준 변수에 따라 결과가 달라질 수 있음
        • 이상치에 민감
          • 일부 대상이 중심에서 너무 떨어져 있으면 평균을 계산하는 과정에서 중심점이 다른 곳으로 튕겨져 나가는 경우 발생