교내활동/소학회(10)
-
[DSOB/WIDA] DACON을 활용한 Classification 학습하기 (3)
현재 소학회에서 플젝(을 가장한 스터디)를 진행중이다. 전반적인 Classification model을 알아가는 과정으로서 작성한 글이다. 소학회 티스토리에 올렸던 글을 그대로 가져왔다. https://dsob2021swu.tistory.com/95 Decision Tree 코드는 블럭으로 따로 첨부 X https://github.com/cAhyoung/dacon_stars_type_clf/blob/main/practive_code/dt_rf_practice.py Hyper parameter criterion(기준) : default=”gini”, 데이터를 분류하기 위한 척도 “gini” 지니계수를 기반으로 한 데이터 분류 “entropy” 엔트로피 값을 기반으로 한 데이터 분류 “log_loss” lo..
2023.04.03 -
[DSOB/WIDA] DACON을 활용한 Classification 학습하기 (2)
현재 소학회에서 플젝(을 가장한 스터디)를 진행중이다. 전반적인 Classification model을 알아가는 과정으로서 작성한 글이다. 소학회 티스토리에 올렸던 글을 그대로 가져왔다. https://dsob2021swu.tistory.com/72 파이썬 머신러닝 완벽 가이드 1판 (권철민)을 참고하여 작성한 글입니다. Classification 정답이 주어진 데이터를 이용해 모델을 학습시키고 스스로 분류할 수 있도록 함 출처: https://velog.io/@uvictoli/Codeit-머신-러닝-결정-트리와-앙상블-기법-01.-결정-트리 Decision Tree 데이터의 규칙을 스스로 찾아내고 학습하여 트리 기반의 분류 규칙을 만들어냄 규칙을 가장 쉽게 표현하는 방법은 if/else 기반으로 나타내..
2023.03.24 -
[DSOB/WIDA] DACON을 활용한 Classification 학습하기 (1)
현재 소학회에서 플젝(을 가장한 스터디)를 진행중이다. 전반적인 도메인 지식을 알아가는 과정으로서 작성한 글이다. 소학회 티스토리에 올렸던 글을 그대로 가져왔다. https://dsob2021swu.tistory.com/40 데이콘에서 2020년에 열렸던 월간 데이콘 대회 중 하나 천체 유형 분류 대회를 통해 분류모델을 학습하는 시간을 가질 예정이다. 일단 주어진 training dataset을 바탕으로 우리가 알아야 할 도메인 지식들을 알아보았다. 1. id, type, fiberID id 그냥 데이터 하나하나에 붙여준 것이라 구체적으로 볼 필요가 없는 것 같다. type type은 자세히 살펴볼 필요가 있다. GALAXY : 주 표본 은하 QSO : 퀘이사 REDDEN_STD ROSAT_D : X선 ..
2023.03.16 -
미니프로젝트: 범죄 관련 주제로
소학회 미니프로젝트로 범죄 관련 주제를 선정해서 진행했다. 캡스톤 프로젝트도 진행하면서 소학회 프로젝트까지 진행하는데 좀 버거움이 있었다. 하지만 끝내고 나니 개운하고 캡스톤과는 다른 뿌듯함이 있었다. 노원구를 전체적으로 살펴보려고 했으나, 시간상 무리일 것 같아 학교가 속한 공릉동으로 한정지었다. 나름 역할분담을 해서 진행했다. 하지만 거의 같이했다고 해도 무방할 것 같다. 도보 순찰과 차량순찰의 경우 범죄율을 낮추는데 큰 차이는 없었으나, 주민들과 소통하며 도보 순찰을 도는 경우 범죄율을 낮추는데 효과적이였다고 한다. 또한 일상생활 이론에 따르면 동기가 부여된 가해자, 적합한 피해자, 보호의 부재가 한 장소에서 합치될 때 범죄가 발생한다고 한다. 이를 통해 보호의 부재가 있는 장소들 중 CCTV가 부..
2021.12.28 -
K-MOOC 데이터로 배우는 통계학 13주차
1. 재현성 위기와 연구 윤리 1) 재현성의 위기 l 원 실험에서 대부분의 연구에서 통계적으로 유의미한 결과가 나왔으나 재현 연구에서 통계적으로 유의미한 결과가 매우 적게 나오는 경우가 있음. l 하지만 통계적으로 유의미한 연구 결과와 통계적으로 유의미하지 않은 연구결과의 차이가 통계적으로 유의미하지 않을 수 있음. l 통계적 유의미성과 더불어 효과의 크기와 효과의 방향 또한 확인하는 것이 중요 l 대부분의 경우 재현 연구에서 효과의 방향은 일치하나 효과의 크기는 절반 정도였음. 운 좋게 큰 효과가 나온 연구가 논문으로 나오는 편향을 보여주는 것임. 귀무가설로의 회귀라고 이야기함. l 계획 단계에서 오해를 불러일으킬 수 있는 문구를 사용하거나 대표성이 부족하고, 편리하지만 저비용의 표본을 선택한 경우 혹..
2021.11.16 -
K-MOOC 데이터로 배우는 통계학 10~12주차
1. 신뢰구간과 가설검정 1) 순열검정과 P값 분할표: 변수의 값에 따라 각 변수에 해당하는 관측치의 개수를 표시하는 유형의 표 순열검정: 원래의 각 변수별 비율차를 구한 뒤, 변수의 값을 조금씩 조정해 비율차를 구한 후 표본분포를 그림. P-value: 귀무가설이 참이라는 전제하에 우리가 관측한 검정통계량의 값이나 혹은 그보다 더 극단적인 값을 얻을 확률. P-value가 주어진 기준값(유의수준)보다 작을 경우 검정통계량의 값이 극단적이라고 이야기함. 대립가설: 우리가 증명하고자 하는 가설 양측 검정: ‘성별에 따라 팔짱끼는 방식이 다르다.’의 대립가설에서는 검정통계량이 음수가 나올 수 있어 그 값보다 작을 확률도 계산해야함. 단측 검정: ‘여성이 남성보다 팔짱을 낄 때 오른팔을 올려놓는 것을 선호한다..
2021.11.14 -
K-MOOC 데이터로 배우는 통계학 8~9주차
1. 확률로 풀어보는 불확실성 1) 붓스트랩 표본이 커질수록 표본 요약치의 값들은 모집단의 요약치와 가까워지지만, 같은 크기의 표본을 다시 뽑는 과정에서 처음의 요약치와는 값들이 변함. 이를 요약치의 변동성(통계량의 분산)이라고 하며, 이를 알아내기 위한 방안으로 bootstrap이 있음. Bootstrap: 모집단에서 표본을 추출 후 그 표본으로 복원추출을 진행하는 방법 붓스트랩 95% 불확실성 구간은 재표본 평균의 95%가 포함되는 범위임. 붓스트랩을 이용해 회귀직선을 그릴 때 불확실성 구간이 나옴. 2) 확률의 기원과 법칙 확률: 데이터가 어떻게 생성되었는지 모형에 대한 것 기대돗수나무: 가능한 모든 경우를 고려해 확률을 쉽게 계산할 수 있는 그림 확률법칙 ① 확률은 0과 1 사이임 ② 여사건 법칙..
2021.11.04 -
K-MOOC 데이터로 배우는 통계학 7주차
7~9주차인줄 알고... 까먹고 있다가 급하게 8주차를 듣던 중 7주차만 듣는 것을 알게되었다. 하하.. 7주차는 저번주에 들어놨었는데.. 1. 알고리즘 알아보기 1) 알고리즘과 인공지능 l 알고리즘: 데이터를 기반으로 실생활의 문제에 대한 해답을 제공하는 기술. l 머신러닝: 통계학과 컴퓨터 공학의 접점분야로 데이터를 통해 자동적으로 향상되는 컴퓨터 알고리즘을 연구하는 분야. l AI: 머신러닝의 또다른 이름. 지도학습과 자율학습으로 나뉨. ① 지도학습 i. Classification(분류) : 사진에서 고양이와 개의 분류 ii. Prediction(예측) : 주식가격 예측 등 (반응변수가 continuous함) ② 강 인공지능: 자의식을 가진 인공지능으로 명령을 받지 않은 일도 할 수 있으며 명령 거..
2021.10.11 -
K-MOOC 데이터로 배우는 통계학 4~6주차
1. 부분에서 전체를 추론하기 1) 모집단과 표본 l 귀납적 추론: 데이터--> 표본--> 연구 모집단--> 목적 모집단 -데이터가 표본으로 가는 단계에서 데이터가 가져야 할 특성 ① 데이터 자체의 변동이 작고 반복 가능 ② 알고자 하는 항목에 대해 어떤 편의도 없이 정확히 측정하고 있음. -내적 타당성: 표본이 연구 모집단의 대표성을 가지는 경우 e.g. 임의추출 등의 방법 이용 -외적 타당성: 연구 모집단과 목적 모집단이 정확히 일치하지 않을 경우 연구 모집단의 결과를 목적 모집단으로 확장할 수 있는 경우 2) 표본 조사 방법 l 센서스: 표본을 선택하는 대신 전체 모집단에 대해서 조사를 한 경우 문제점 ① 센서스에 잡히지 않는 사람이 있음. E.g. 불법 체류자 ② 모집단은 계속 변화하기 때문에 완..
2021.10.04 -
K-MOOC 데이터로 배우는 통계학 1~3주차
0. PPDAC 과정 데이터를 분석하는 다섯개의 단계를 나타내며 각각 Problem, Plan, Data, Analysis, Conclusion을 의미함. Problem 단계에서 중요한 것은 문제 정의의 기준을 어떻게 혹은 어디에 두는지가 가장 중요함. 예를 들어 지구상에는 얼마나 많은 나무가 있을지에 대한 문제에서 나무의 정의에 따라 나무의 기준이 바뀔 수 있음. Plan 단계에서는 어떻게 데이터를 수집할 것인지를 계획하는 단계임. Data 단계는 데이터를 수집하고 전처리하는 과정을 담고 있으며, Analysis 단계에서는 통계모형 등을 이용해 결론 도출 과정으로 진입함. Conclusion 단계에서는 앞의 과정을 통해 결론 도출을 하는 단계임. 1. 데이터 수집 과정 1) 실험: 의미 있는 결론을 도..
2021.10.04