K-MOOC 데이터로 배우는 통계학 7주차

2021. 10. 11. 18:22교내활동/소학회

반응형

7~9주차인줄 알고... 까먹고 있다가 급하게 8주차를 듣던 중 7주차만 듣는 것을 알게되었다. 하하.. 7주차는 저번주에 들어놨었는데..

 

<백업용 글>

 

1. 알고리즘 알아보기

1) 알고리즘과 인공지능

  l  알고리즘: 데이터를 기반으로 실생활의 문제에 대한 해답을 제공하는 기술.

  l  머신러닝: 통계학과 컴퓨터 공학의 접점분야로 데이터를 통해 자동적으로 향상되는 컴퓨터 알고리즘을 연구하는 분야.

  l  AI: 머신러닝의 또다른 이름. 지도학습과 자율학습으로 나뉨.

  지도학습

                 i.     Classification(분류) : 사진에서 고양이와 개의 분류

                 ii.     Prediction(예측) : 주식가격 예측 등 (반응변수가 continuous)

  강 인공지능: 자의식을 가진 인공지능으로 명령을 받지 않은 일도 할 수 있으며 명령 거부도 가능.

약 인공지능: 데이터를 바탕으로 주어진 문제에 대한 답을 찾는 기술.

 

  l  데이터의 두가지 유형

  길쭉한 자료 : n이 큰 경우 = 표본의 크기가 큰 경우 = 행의 개수가 많음

  뚱뚱한 자료 : p가 큰 경우 = parameter의 개수가 많은 경우 = 열의 개수가 많음

 

  l  과적합 : 복잡한 모델을 적합하는 경우 예측치의 편의는 줄어드나 분산이 늘어나는 현상

  -->적당히 단순한 모형을 이용해 오버피팅을 피해야함.

  훈련자료, 평가자료, 검증자료 : 오버피팅을 피하기 위해 데이터를 훈련자료와 평가자료로 나누어서 사용. 모델의 복잡도를 결정하기 위해 별도의 검증자료를 사용하거나 훈련자료를 활용하는 교차검증이 있음.

   평가자료를 이용하는 경우 딱 한 번만 사용.

e.g. 타이타닉호 생존자는 어떤 사람들이었을까?

승객들의 정보를 통해 의사결정 나무를 만들어 사망여부를 분류

 

 

2) 알고리즘 성능평가

  l  정확도 : 평가자료에서 (1-오분류)의 비율

  l  민감도 : 양성환자 중 양성으로 진단된 비율

  l  특이도 : 음성환자 중 음성으로 진단된 비율

7주차 강의 자료 17p

  l  ROC 곡선 : 분류기준값에 따른 특이도와 민감도를 제시하는 그림

7주차 강의 자료 21p

일반적으로 기준점을 상향조정하면 특이도는 증가하고 민감도는 감소함.

 

 

 

  l  ROC 곡선의 비교와 AUC

 -같은 분야의 두개의 알고리즘을 비교할 때 각 알고리즘의 ROC 곡선을 이용해 비교

 -두개의 곡선이 겹치지 않는 경우 위쪽에 위치한 알고리즘이 우수(같은 기준점에서 특이도와 민감도가 더 높기 때문)

 -대부분의 경우 ROC 곡선들이 겹쳐져서 표시되기 때문에 아래면적(AUC)를 이용해 비교

 

  l  보정그림: 확률 예측이 얼마나 정확했는지 알아보기 위한 그래프

7주차 강의자료 24p

*점선 위에 점이 존재하는 경우 실제 확률과 유사함을 뜻함.

*불확실성을 표시하는 구간을 함께 제시

 

  l  브라이어 지수

e.g. 비가 올 확률

비가 올 확률과 실제로 비가 온 여부의 차의 제곱을 구한 후 제곱 오차들의 평균을 구한 것을 브라이어 지수라고 함.

기준지수: 과거의 기상기록을 이용해 강수확률을 예측한 후 그 결과에 대한 브라이어 지수를 의미.

 

  l  기술지수

-제대로 된 기상예보 알고리즘의 경우 브라이어 지수는 기준지수보다 낮아야 함.

-기준지수 대비 해당 알고리즘이 얼마나 오차를 감소시켰는지 알아내는 지표

1 – (해당 알고리즘의 브라이어지수 / 기준지수)

 

 

3) 과적합과 알고리즘의 문제점

  l  의사결정 나무에서 계속 조건을 추가하는 경우 모형의 복잡도가 증가하며 과적합이 일어남.

  l  과적합을 피하기 위해 검증자료 필요

  l  모형의 복잡도는 조절 모수를 통해 결정됨. 각각의 다른 조절 모수의 값을 이용해 검증자료에서의 예측오차를 계산. 그중 가장 작은 예측 오차를 제공하는 조절 모수를 선택함.

  e.g. 의사결정나무의 조절 모수: 가지(조건)의 개수

 

  l  K-fold 교차검증

 -1개의 교차자료만 이용해 조절모수를 결정하는 경우 자료의 종류에 따라 조절모수 선택에 민감한 영향을 줄 수 있음.

 -전체 데이터를 K개로 나눈 후 하나는 검증자료로, 나머지는 훈련자료로 이용. 검증자료를 바꿔가며 K번 반복함.

 

  l  Random Forest, Support Vector Machine, Neural Network, K-Nearest Neighbor 등의 다양한 검증방법이 있음.

 

  l  알고리즘의 문제

  Robustness 이슈

구글의 경우 독감예측을 하기 위해 검색량을 이용해 예측하였으나 발병률이 2배가 넘어가며 신뢰도가 하락하게 되었음. 다른 알고리즘처럼 모든 환경이 똑같이 유지된다는 가정이 있었으나 구글 자체 검색엔진의 변화를 반영하지 못했음. 따라서 조금의 변화에도 민감하게 변화할 수 있는 상황이였고, 이를 Rostness가 없다고 이야기함.

 

   변동성

작은 숫자에 기반한 예측치의 경우 변동가능성이 크다는 점을 고려해야함.

 

   내재적 편향성

반려견으로 길러진 허스키를 구별하지 못하는 알고리즘의 경우 배경의 눈을 기준으로 허스키와 늑대를 구분했고, 알고리즘은 실제 관심 사항에 무관한 특징을 사용할 수 있다는 것을 기억해야함.

이런 부분을 파악하기 위해서는 알고리즘이 어떻게 돌아가는지 알아야함.

 

   투명성 여부

미국 법정에서 범죄 재발 예측 알고리즘을 이용해 위험지수를 구했는데, 이는 어떤 방식으로 산출되는지 알려지지 않음. 양육환경, 과거 범죄 연루 정보 등을 이용하는 경우 사회적 빈곤층의 위험지수가 높아질 가능성이 매우 큼.

 

  Reverse-Engineering

e.g. 자동차 보험의 경우 성차별을 하면 안됨. 이 경우 모든 정보를 동일하게 집어넣고 성별만 바꿀 경우 예측치가 변화하는지 알아보는 방식

이런 문제를 해결하기 위해 Explainable AI가 등장

 

반응형