[데이터 시각화] 시각화 기본

2022. 10. 24. 23:292022/데이터시각화

서울여자대학교 김예리 교수님의 데이터 시각화 수업을 듣고 정리한 글입니다.


❓시각화 활용 예시

  • EDA
  • A/B Testing : Conversion Rate
  • Cohort Analysis : User Retention
  • 정기적인 모니터링을 위한 시각화
  • 조직 내 커뮤니케이션을 위한 보고서형 스토리텔링 시각화

🔔 시각화 팁

  • 데이터 잉크의 비율을 높여라
    • 단, 표현하고자 하는 데이터 외의 불필요한 장식은 없애 심플하게 만들어라
  • 시각적 속성을 활용해라
    • 미묘한 차이도 정확하게 비교할 수 있도록 해라
      • 위치 > 길이 > 방향 > 각도 > 면적 > 부피 > 채도
      • 막대차트와 같이 길이를 표현한 차트의 경우 미묘한 길이도 판별할 수 있어 일반적으로 많이 사용됨
      • 파이차트와 영역차트는 각각 각도와 면적을 나타내는데, 인간의 눈으로 정확하게 인식하기 어려움
        • 굳이 비율로 나타내고 싶다면 파이보다 도넛을 이용하는 것이 좋음
  • 시각화의 목적은 커뮤니케이션이다
    • 질문에 대한 핵심 메세지가 명확한가?
    • Action Item이 있는가?
    • 상대방과 나 사이에 공유된 맥락이 나타났는가?
    • 인사이트를 얼마나 이해하기 쉬운 형태로 전달하는가?
  • 3D 차트는 쓰지 않는다
    • 정확한 사실이 전달되지 않을 뿐더러 왜곡된 정보가 전달될 수 있음
  • 막대그래프의 축은 반드시 0부터 시작해야 한다
    • 축이 잘리는 경우 차이가 과도하게 강조되어 사실을 왜곡하게 됨
    • 잉크양 비례의 원칙에 의해 색조를 넣은 영역이 수치값을 나타낼 때, 색조가 들어간 영역의 면적은 해당 값과 정비례 해야 한다.
  • 꺾은선 그래프는 축을 잘라내도 괜찮다
    • 트렌드를 파악하는 것이 꺾은선 그래프의 가장 중요한 역할임
    • 축을 잘라냄으로써 급격한 기울기를 확인할 수 있고, 트렌드를 파악할 수 있음
  • 이중축은 혼란의 여지가 있다
    • 어느쪽 축이 막대고 어느쪽 축이 선인지 불분명하게 이해하기 어려움
  • 산포도는 가로축에 원인, 세로축에 결과를 표시한다
    • 산포도의 경우 상관관계는 인과관계를 나타내지는 않지만, 일반론으로 성립된다고 생각하는 경우 쉽게 해석하기 위함임
  • 시간축은 가로축이 기본이다
    • 시간을 가로로 배치하는 편이 경향을 인식하기 훨씬 편함

😮 Story Telling

  • 컨텍스트 설명
  • 핵심 메세지 : 문제와 기회를 이야기함
  • Recommended Action
  • 득과 실을 따짐 : 예상 변화 수치, 시간과 비교