2021. 11. 16. 13:35ㆍ교내활동/소학회
1. 재현성 위기와 연구 윤리
1) 재현성의 위기
l 원 실험에서 대부분의 연구에서 통계적으로 유의미한 결과가 나왔으나 재현 연구에서 통계적으로 유의미한 결과가 매우 적게 나오는 경우가 있음.
l 하지만 통계적으로 유의미한 연구 결과와 통계적으로 유의미하지 않은 연구결과의 차이가 통계적으로 유의미하지 않을 수 있음.
l 통계적 유의미성과 더불어 효과의 크기와 효과의 방향 또한 확인하는 것이 중요
l 대부분의 경우 재현 연구에서 효과의 방향은 일치하나 효과의 크기는 절반 정도였음.
운 좋게 큰 효과가 나온 연구가 논문으로 나오는 편향을 보여주는 것임.
귀무가설로의 회귀라고 이야기함.
l 계획 단계에서 오해를 불러일으킬 수 있는 문구를 사용하거나 대표성이 부족하고, 편리하지만 저비용의 표본을 선택한 경우 혹은 표본의 크기가 너무 작아 검정력이 낮은 연구를 설계한 경우 잘못될 수 있음.
l 데이터 수집단계에서 응답 누락, 중도포기, 모집 부진 등의 문제로 인해 잘못될 수 있음.
l 분석 단계에서 자료입력 실수를 하는 경우 결론이 완전히 뒤바뀔 수 있음. 또한 통계 모형에 대한 오류로 인해 손실이 발생할 수도 있음. ‘유의미하지 않음’과 ‘영향없음’을 동일시 하는 경우, 귀무가설을 기각하지 못한 것을 귀무가설이 참이라고 생각하는 경우 또한 오류가 발생함.
l 결론 도출단계에서 통계 검정을 실행 후 가장 유의미한 결과만 발표 후 그것이 유일하게 행해진 검정처럼 해석하는 경우 오류가 발생함.
2) P-Hacking
l 데이터를 조작해 유의미한 결과를 제공하는 것을 p-hacking이나 data snooping이라고 함.
l 실제로 연구를 하는 과정에서 공동 연구자들이 실험 설계, 분석, 결론에 이르는 단계를 모두 알지 못하는 경우가 많음.
l 데이터 분석 과정에서 의사결정을 해야 하는데 이를 연구자의 자유도라고 사이먼슨은 이야기함.
l 탐색적 분석에서 연구자의 자유도가 존중되지만 확증적 분석에서는 사전 계획에 따라 분석이 진행되어야 함.
l 보다 광범위한 내용의 연구 부정행위에 대해 물어본 결과 많은 연구자들이 그런 행위를 한 적이 있음을 이야기함.
기대하지 않았던 결과를 처음부터 예측한 것처럼 발표.
결과가 유의미하지 않을 경우 데이터를 추가.
연구의 모든 결과를 발표하지 않음.
이런 연구 부정행위 중 적어도 하나는 한 적이 있음.
l
l 이 단계를 거치며 결과물의 해석에 대한 오류와 왜곡은 어디서나 생길 수 있음.
l 발견편향: 통계적으로 유의미한 결과만 출판되는 것
통계적으로 유의미하지 않은 결과만 출판하는 학술지 등장
l 미디어의 통계자료 보도 방식
현재 합의에 반하는 이야기를 하라
연구의 질에 구애받지 말고 이야기를 홍보하라
불확실성을 발표하지 마라
장기간의 동향 같은 전후사정 비교를 통한 관점을 제공하지 마라
단지 하나의 연관성이 관측될 때 원인을 제안하라
결과들의 관련성과 중요성을 과장하라
증거가 특정 정책을 뒷받침한다고 주장하라
긍정적, 부정적 프레이밍을 사용하라
상충되는 관심이나 다른 기각은 무시하라
생생하지만 정보를 주지 않는 시각화를 활용하라
상대위험도만 제공하고 절대위험도는 제공하지마라
3) 통계학으로 대화하기
l 통계 분석자: 사전에 준비된 분석 계획에 따른 결과를 발표해야 함. 하지만 사전 분석 계획보다 분석 내용이 관측된 데이터에 맞춰서 조정되는 경우가 많음. 분석 계획이 미진한 경우 원래 계획에 따른 분석 결과와 추가 분석 내용을 포함해야 함.
l 전달자: 단순과 현란함 사이의 적절한 조화를 통해 이해하기 쉽도록 정보를 전달해야 함.
l 적절하지 않은 분석이나 연구 부정행위가 개입되는 경우 출판편향이 존재할 수 있음.
l 귀무가설이 맞다면 p값의 분포는 0과 1 사이의 균등 분포를 따름.
l 데이터 윤리
사람에게 영향을 미치는 알고리즘은 공정하고 투명해야 함
과학 연구는 정직하고 재현 가능해야 함
통계자료의 전달은 신뢰할 수 있어야 함
사생활 보호와 데이터 소유권도 생각해보아야 할 문제임.
4) 통계분석을 잘하기 위해서는?
l 데이터 기반 주장
접근 가능: 정보를 쉽게 얻을 수 있어야 함
이해 가능: 정보를 쉽게 이해할 수 있어야 함
평가 가능: 주장의 신빙성 확인할 수 있어야 함
사용 가능: 원한다면 정보를 활용하여 다른 목적으로 사용할 수 있어야 함
l 통계기반 주장을 점검하기 위한 10가지 질문
관련 연구는 얼마나 엄밀히 수행되었는가?
결과에 통계적 불확실성은 무엇인가?
요약은 적절한가?
이야기의 출처는 믿을만 한가?
이야기를 장황하게 늘어놓고 있는가?
들려주지 않은 것은 무엇인가?
그 주장이 알려진 것들과 얼마나 잘 맞는가?
보인 것에 대한 설명으로 무엇을 주장하는가?
들려주는 이야기와 청중과 연관성은 무엇인가?
주장하는 내용의 영향력은 어느정도인가?
l 통계분석을 잘하는 10가지 규칙
통계분석 방법은 데이터로 주어진 과학적 질문에 답변을 제공하게 해야 함
신호는 항상 소음처럼 나타남
항상 미리 상세한 연구계획을 준비
데이터의 질에 신경쓸 것
통계분석은 단순히 통계 패키지를 돌리는 것이 아님
단순한 모형이 좋음
불확실성에 대한 근거 제시
가정을 항상 확인할 것
새로운 데이터를 사용해 분석 절차 반복
재현 가능한 연구가 될 수 있도록 분석 결과 제공
l 재현 가능 연구를 위한 수단
프로그램에 충분히 주석을 달 것
버전 관리하기
'교내활동 > 소학회' 카테고리의 다른 글
[DSOB/WIDA] DACON을 활용한 Classification 학습하기 (1) (0) | 2023.03.16 |
---|---|
미니프로젝트: 범죄 관련 주제로 (0) | 2021.12.28 |
K-MOOC 데이터로 배우는 통계학 10~12주차 (0) | 2021.11.14 |
K-MOOC 데이터로 배우는 통계학 8~9주차 (0) | 2021.11.04 |
K-MOOC 데이터로 배우는 통계학 7주차 (0) | 2021.10.11 |