2022(31)
-
[파이데사] ML 2
Supervised learning 정답이 존재한 상태로 학습을 시키는 방식 비지도학습보다 성능이 더 좋으나 y값(labels)를 얻는 것이 쉽지 않음 y값이 연속형이라면 선형회귀 이용 y값이 이산형이라면 classification 이용 Regression 과거의 점수를 분석함으로써 학생들의 중간고사 점수를 예측할 때 X: past scores of another students y: their midterm scores 중고차의 특징을 분석함으로써 가격 예측하기 X: characteristics of cars already sold y: their prices Classification 과거의 점수들을 분석하여 학생들의 성적 예측하기 X: past scores of students y: their gr..
2023.04.26 -
[파이데사] ML 1
기초 지식 영어 대문자 → 집합 영어 소문자 볼드체 → 벡터 anaconda → python distribution arg min : 어떤 특정한 argument를 최소화 함 Data Analytics Descriptive: 평균값 등 당장 현상황을 살펴봄 통계 분석: statistics, t-test 유사 집단 판별: clustering(k-means, hierarchical) 변수간 연관성 분석: association rule mining 시각화 Diagnostic: 현 상황을 해결하려면? reasoning: structural equation, Bayesian analysis Predictive: 모델을 통한 예측 unsupervised: clustering(k-means, hierarchical)..
2023.04.26 -
[데이터 시각화] 기말 프로젝트: 지하철 혼잡도 시각화
본 기말 프로젝트는 데이터시각화 수업 중 진행된 팀프로젝트를 전반적인 과정을 다룬 글입니다. 1. 주제 선정 이유 이태원 참사를 계기로 출퇴근 시간대 안전사고에 대한 우려가 높아진 가운데 "압사" 키워드 검색량이 증가한 것으로 보아 압사사고에 대한 경각심 또한 증가한 것으로 보인다. 이를 바탕으로 지하철 승하차인원과 혼잡도 데이터 분석을 통해 지역별 지하철 및 전철역의 시간대별 인구 밀집도를 제공하고, 지하철 이용객의 경우 역대 시간대별 밀집도를 확인하여 승객이 붐비는 시간대에 사고의 위험성을 줄이고자 한다. 2. 문제 정의 우리는 특정 역의 특정 시간대에 사람이 얼마나 붐비는지 알기 어려우며, "또타 지하철"에서 티맵과 연계하여 열차 내 혼잡도를 제공하고 있으나, 열차 내부가 아닌 역사의 플랫폼에서의 ..
2023.02.02 -
[데이터 시각화] 시각화 기본 5 (재정리)
서울여대 데이터사이언스학과 김예리 교수님의 '데이터 시각화' 수업을 듣고 정리한 내용입니다. 🔨 데이터 Shaping wide form → long form 데이터 해석기 데이터 전처리 시 사용됨 제목, 빈 셀 인식 후 태블로에 적합한 데이터로 바꿔줌 엑셀, 구글시트, 텍스트파일, pdf에 적용가능 병합된 셀 해결, 제목 해결, 데이터 해석 결과 확인 가능 공공데이터 포털에서 데이터를 수집하는 경우 매우 유용하게 사용할 수 있음 이미 태블로가 제대로 인색할 수 있는 데이터 포맷이년 사용 불가 2000 column 이상인 경우 사용 불가 3000*150 이상인 경우 사용 불가 피벗 원하는 열들을 모두 선택하여 우클릭 후 피벗 클릭 가로로 긴 데이터를 세로로 바꿔줌 EDA 데이터 살펴보기 필드 설명 보기 차..
2022.12.22 -
[데이터 시각화] 시각화 기본 4 (재정리)
서울여대 데이터사이언스학과 김예리 교수님의 '데이터 시각화' 수업을 듣고 정리한 내용입니다. ⏰ 시간에 따른 시각화 Base: 라인차트 이중축 라인 차트 양 영역 차트 누적 영역 차트 구성비 100% 누적 영역 차트 경향 슬로프 차트 두 지점의 값을 비교하는데 유용한 차트 스파크 라인 차트 여러개의 측정값의 트렌드를 볼 수 있는 차트 날짜 캘린더 차트 날짜별 매출 정도를 확인할 수 있음 간트 차트 기간을 시각화할 때 효과적임 🗺️ 구성비율에 따른 시각화 도넛차트 구성비율과 라벨을 모두 적어둘 수 있음 파이차트보다 보기 좋은 차트임 매개변수를 만들어 매개변수를 조절해 차트의 변화를 볼 수 있음 트리맵 속성이 많아지는 경우 도넛차트 대신 이용 1개 이상의 차원, 1개 또는 2개의 측정값을 골라 트리맵을 생성..
2022.12.22 -
[데이터 시각화] 시각화 기본 3 (재정리)
서울여대 데이터사이언스학과 김예리 교수님의 '데이터 시각화' 수업을 듣고 정리한 내용입니다. 📊 차원과 측정값 차원 측정값 - 나눠서 볼 기준이자 숫자를 자르는 기준임 - 범주형 데이터 - 차원을 통해 측정값을 나눠줄 수 있음 - 차원값과 측정값은 함께 해야 의미 있음 - 숫자 - 수치형 데이터 - 측정값 그 자체는 인사이트가 없음 - 측정값은 기본적으로 집계를 함 (합계, 평균 등) 지역, 연도, 성별 등 매출, 수익, 배송비 태블로는 기본적으로 측정값을 집계함 → 숫자 데이터이기 때문 차원이 존재하지 않으면 하나의 덩어리로 보여줌 합계를 낼 수 있다면 측정값, 합계를 낼 수 없다면 차원 페이지, 색상, 크기, 텍스트, 세부정보, 행, 열, 워크시트에 차원을 추가하면 뷰의 세부 수준이 영향을 받음 📈 ..
2022.12.22 -
[데이터 시각화] 시각화 기본 2 (재정리)
서울여대 데이터사이언스학과 김예리 교수님 '데이터 시각화' 수업을 듣고 정리한 내용입니다. 😮 Story Telling 스토리 3단 구성 컨텍스트 설명 누구에게 전달하는지 잘 생각해야 함 내부 이해 관계자에게 하는가? employees, manager, owners 외부 이해관계자에게 하는가? suppliers, society, government, creditors, shareholders, customers 핵심 메세지 : 문제와 기회를 이야기함 결론 → 이유, 예시 → Recommended Action key performance index의 변화가 어떤지를 설명 money의 revenue 변화, costs 변화 설명 market의 market share 변화, time to market 변화 설명..
2022.12.22 -
[데이터 시각화] 시각화 기본 1 (재정리)
서울여대 데이터사이언스학과 김예리 교수님의 '데이터 시각화' 과목을 수강하고 정리한 내용입니다. 👍 데이터 시각화의 중요성 대량의 데이터가 축적되어가며, 이 중 유의미한 데이터를 선별하고 문제를 발굴하며 기회를 포착하거나 solution을 찾기 위해 모델링을 진행함 시각화를 통해 인사이트를 도출하고, communication ✨ 시각화가 효과적인 근거 전주의적 속성 전주의적 속성을 활용하여 action 가능한 insight를 찾고 communication을 함 ❓시각화 활용 예시 가설 수립 EDA 가설 검증 A/B Testing : Conversion Rate Cohort Analysis : User Retention 정기적인 모니터링을 위한 시각화 대시보드 조직 내 커뮤니케이션을 위한 보고서형 스토리텔..
2022.12.22 -
[데이터 시각화] 태블로 기본 2
서울여자대학교 김예리 교수님의 데이터 시각화 수업을 듣고 정리한 글입니다. ⏰ 시간에 따른 시각화 Base: 라인차트 영역 차트 누적 영역 차트 100% 누적 영역 차트 슬로프 차트 두 지점의 값을 비교하는데 유용한 차트 스파크 라인 차트 여러개의 측정값의 트렌드를 볼 수 있는 차트 캘린더 차트 날짜별 매출 정도를 확인할 수 있음 간트 차트 기간을 시각화할 때 효과적임 이중축 라인 차트 🗺️ 구성비율에 따른 시각화 도넛차트 구성비율과 라벨을 모두 적어둘 수 있음 파이차트보다 보기 좋은 차트임 매개변수를 만들어 매개변수를 조절해 차트의 변화를 볼 수 있음 트리맵 속성이 많아지는 경우 도넛차트 대신 이용 1개 이상의 차원, 1개 또는 2개의 측정값을 골라 트리맵을 생성할 수 있음 누적 바 차트 각 항목에 대..
2022.10.24 -
[데이터 시각화] 태블로 개념 1
서울여자대학교 김예리 교수님의 데이터 시각화 수업을 듣고 작성한 글입니다. 📊 차원과 측정값 차원 측정값 - 나눠서 볼 기준, 숫자를 자르는 기준임 - 범주형 데이터 - 차원을 통해 측정값을 나눠줄 수 있음 - 차원값과 측정값은 함께 해야 의미가 있음 - 숫자 - 수치형 데이터 - 측정값 그 자체는 인사이트가 없음 - 측정값은 기본적으로 집계함(합계, 평균 등) 지역, 연도, 성별 등 매출, 수익, 배송비 📈 연속형과 불연속형 연속형 불연속형 연속적 순서가 있는 이어진 데이터 개별적으로 구분되는 데이터 오름차순, 내림차순 정렬 불가 오름차순, 내림차순 정렬 가능 색상 마크에 올려놓으면 그라데이션이 나타남 색상마크에 올려놓으면 각각 유니크한 색상이 맵핑됨 필터링 하는 경우 범위를 정해줄 수 있음 필터링을 ..
2022.10.24