[데이터 시각화] 시각화 기본 1 (재정리)

2022. 12. 22. 09:102022/데이터시각화

서울여대 데이터사이언스학과 김예리 교수님의 '데이터 시각화' 과목을 수강하고 정리한 내용입니다.


👍 데이터 시각화의 중요성

  • 대량의 데이터가 축적되어가며, 이 중 유의미한 데이터를 선별하고 문제를 발굴하며 기회를 포착하거나 solution을 찾기 위해 모델링을 진행함
  • 시각화를 통해 인사이트를 도출하고, communication

✨ 시각화가 효과적인 근거

  • 전주의적 속성
    • 전주의적 속성을 활용하여 action 가능한 insight를 찾고 communication을 함

❓시각화 활용 예시

  • 가설 수립
    • EDA
  • 가설 검증
    • A/B Testing : Conversion Rate
    • Cohort Analysis : User Retention
  • 정기적인 모니터링을 위한 시각화
    • 대시보드
  • 조직 내 커뮤니케이션을 위한 보고서형 스토리텔링 시각화

🔔 시각화 팁

좋은 데이터 시각화

사람이 한번에 처리할 수 있는 정보량에는 한계가 있기 때문에 ‘정보전달의 효율성’을 생각해야 함

→ 시그널은 최대화, 노이즈는 최소화


  • 데이터 잉크의 비율을 높여라
    • 단, 표현하고자 하는 데이터 외의 불필요한 장식은 없애 심플하게 만들어라
  • 시각적 속성을 활용해라
    • 미묘한 차이도 정확하게 비교할 수 있도록 해라
      • 위치 > 길이 > 방향 > 각도 > 면적 > 부피 > 채도
      • 막대차트와 같이 길이를 표현한 차트의 경우 미묘한 길이도 판별할 수 있어 일반적으로 많이 사용됨
      • 파이차트와 영역차트는 각각 각도와 면적을 나타내는데, 인간의 눈으로 정확하게 인식하기 어려움
        • 굳이 비율로 나타내고 싶다면 파이보다 도넛을 이용하는 것이 좋음
  • 시각화의 목적은 커뮤니케이션이다
    • 질문에 대한 핵심 메세지가 명확한가?
    • Action Item이 있는가?
    • 상대방과 나 사이에 공유된 맥락이 나타났는가?
    • 인사이트를 얼마나 이해하기 쉬운 형태로 전달하는가?
  • 3D 차트는 쓰지 않는다
    • 정확한 사실이 전달되지 않을 뿐더러 왜곡된 정보가 전달될 수 있음
  • 막대그래프의 축은 반드시 0부터 시작해야 한다
    • 축이 잘리는 경우 차이가 과도하게 강조되어 사실을 왜곡하게 됨
    • 잉크양 비례의 원칙에 의해 색조를 넣은 영역이 수치값을 나타낼 때, 색조가 들어간 영역의 면적은 해당 값과 정비례 해야 한다.
  • 꺾은선 그래프는 축을 잘라내도 괜찮다
    • 트렌드를 파악하는 것이 꺾은선 그래프의 가장 중요한 역할임
    • 축을 잘라냄으로써 급격한 기울기를 확인할 수 있고, 트렌드를 파악할 수 있음
  • 이중축은 혼란의 여지가 있다
    • 어느쪽 축이 막대고 어느쪽 축이 선인지 불분명하게 이해하기 어려움
  • 산포도는 가로축에 원인, 세로축에 결과를 표시한다
    • 산포도의 경우 상관관계는 인과관계를 나타내지는 않지만, 일반론으로 성립된다고 생각하는 경우 쉽게 해석하기 위함임
  • 시간축은 가로축이 기본이다
    • 시간을 가로로 배치하는 편이 경향을 인식하기 훨씬 편함