통계적 방법

Statistical Methodology / Quantitative Methodology / Quant

統計的 方法

1. 들어가기 전에
1.1. 공부의 단계
2. 서론: 기술통계와 통계적 추론
2.1. 기술 통계의 시각화
3. 확률 변수: 이산적 자료와 연속적 자료
4. 중심화 경향: 평균, 중앙값, 최빈값
5. 분산과 표준 편차
6. 자유도
7. 분포
8. 추정: 추론 통계학
8.1. 오차 범위와 표본 크기
8.2. 비모수적 방법
9. 통계학적 검정
9.1. 결정 규칙: 영 가설과 대립 가설
9.2. 단측 검정과 양측 검정
9.3. 제1종 오류와 제2종 오류
10. 분석
11. 통계 소프트웨어
11.1. 빅 데이터 프로세싱
11.2. VENSIM
11.3. GrafEq
11.4. AMOS
12. 관련 문서

1. 들어가기 전에

젠장! 대학교 들어오면 수학이랑은 작별일 줄 알았는데!

이 문서에 들어온 위키러 여러분 중 일부는 수학과는 사이가 별로 좋지 않을 것이다. 그리고 그런 분들 중 일부는 사회과학을 멋모르고 선택했다가, 문과 출신임에도 다시 수학과의 악연을 이어가야 한다는 사실을 깨닫고 절규했을지도 모른다.(…) 이 문서에서 다룰 내용은 그들을 울리는 강의에서 가르치는 것과 거의 일치한다. 여러분의 전공이 경제학, 경영학, 심리학, 사회학, 행정학, 정치학 등이라면, 이하의 내용을 배우는 것을 피해가기 어렵다. 특히 여러분의 전공이 심리학이라면, ......축하한다.(…)

그러나 불행하게도 갈수록 통계를 모르는 사회과학도는 살아남기 힘든 시절이 오고 있다(…). 이러한 흐름은 1950~1960년대에 사회과학의 각종 분야들에서 양적 방법론이 각광을 받던 무렵부터 시작되었다고 봐도 무방하다. 점점 더 많은 학문들에서 통계적 방법을 그들의 연구방법론으로 수용하고 있으며, 양적 접근법이 각광받는 만큼 통계 데이터를 제대로 수집해서 제대로 처리하고 제대로 해석하는 테크닉도 필수가 되어가고 있다. 애초에 그런 게 아니더라도, 통계에 대해서 최소한의 지식이라도 갖추고 있다면 험난한 사회생활 속에서 약팔이들의 거짓 광고나 정치인 지지율에 대한 언론플레이 등에 잘 속아넘어가지 않는다. 아래에서 설명할 "통계적 검증"(검정) 파트가 특히 그렇다.

통계적 분석(statistical analysis) 역시 마찬가지이다. 세상에는 상관관계와 인과관계가 있다. 과학적 방법은 최선의 인과관계 입증 방법이다. 그런가 하면, 통계적 방법은 최선의 상관관계 검증 방법이다. 입증과 검증은 엄연히 다르다. 상관관계가 존재하는지 아닌지는 수학적인 차원에서 "증명"이 가능하기에 검증이라고 하지만, 인과관계의 존재에 대해서는 반복된 실험결과를 누적시키고 재현성을 확인하여 "입증" 하는 데서 그칠 따름이다. 과학적 방법 밑바닥에는 통계적 방법이라는 단단한 기초가 자리하고 있다. 과학을 제대로 학문(學文)하기 위해서는 통계에 대한 지식이 필요하다.

이 문서는 기본적으로 통계학에 익숙하지 않은 사회과학도 혹은 문과 고등학생들이 대상임을 가정하고 쓰였다. 따라서 엄밀하지 않은 정의, 거칠고 억지스러운 비유, 과격한 요약과 압축, 무책임한 설명(…)이 종종 있을 수 있다. 그러나 (r.10 버전 기준으로) 이는 반쯤 의도된 것이며, 지나치게 엄밀한 설명으로 도리어 진입장벽이 높아지지 않도록 한 조치다. 예컨대 표준 편차 얘기가 나오는 단락에 Chebysheff’s Inequality 증명을 한다든가(…) 정규분포를 설명하는 데 모멘트 생성함수를 보여주려고 한다든가(……) 하는 종류의 편집을 말한다. 굳이 엄밀한 증명을 하고 싶다면 표준편차처럼 각 개념들의 이름으로 표제어를 삼아서 새 문서들을 만들고 거기서 설명할 수도 있을 것이다. 더 좋은 의견이 있다면 상단의 토론 탭에서 자유롭게 말씀해 주시기 바란다. 혹시 통계학 전공자분이 이 문서를 접한다면, 의도적으로 가볍게 설명하려 한 점 양해 부탁드린다.

사회과학에서 통계학을 바라보는 시각은 대충 이렇다. "구체적인 원리나 이치는 우리 알 바 아니고, 이거 어떻게 써먹을까?" 실제로 강의 중인 교수님들에게 "어떻게 그걸 증명할 수 있죠?" 라고 물어보면 십중팔구는 "그런 건 통계학자들이 연구하게 내버려두고, 우리는 이게 이렇다는 것만 알면 된다" 는 답변이 돌아온다. 진짜다.(…) 그러나 무턱대고 무책임하다고 비난할 수는 없다. 군대에 비유하자면, "교관님, 엎드려쏴 자세는 잘 이해했습니다만, K-2 소총은 어떤 주조 공법으로 만들어지는 겁니까?" 로 뜬금없이 질문하는 훈련병을 생각하면 된다.(…) 사회과학도들이 알아야 할 것은 K-2를 가지고 엎드려쏴를 배워서 적을 사살하는 것이지(즉, 통계 데이터를 가지고 주어진 사회현상을 분석하고 설명하는 것이지) K-2가 어떤 주조 기술을 통해 만들어지는지(즉, 통계 데이터를 이끌어 낸 수학적 증명이 어떤 논리적 과정을 거치는지)가 아닌 것이다. 그래도 굳이 배우겠다면 그 열의를 말리진 않겠다만, 이런 우수한 학생쯤 되면 이미 이 위키 페이지는 필요가 없을 것이다.

물론 이게 기초 수학을 아주 무시해도 된다거나, 사회과학에서 수학적 증명이 무의미하다는 면책조항인 건 결코 아니다. 수학적 증명이 '그 목적이 아니다'라는 것 뿐이다. 수학에 대한 최소한의 이해도 없이 무작정 덤벼들었다간 어찌어찌 통계를 돌리긴 하는데 어째서 이게 이렇게 되는 건지 감을 못 잡는다. 예컨대 확률이 무엇인지에 대한 개념적 기초가 부족한 사람이 통계적 방법을 접하면 초반의 확률변수 개념에서부터 벌써 알 듯 모를 듯 둥둥 떠다니기만 하는 문제를 겪을 것이다. 따라서 확률과 통계는 고등학교 수준에서라도 교과서 내지 참고서를 곁에 두고 꾸준히 탐독할 필요가 있다.

그리고 사회과학도가 꼭 통계를 못 하는 것은 아니다. 사회과학도들 중 통계적 방법론으로 박사학위를 받은 사람들은 해외에서 듣도보도 못한 최신 고급 분석기법을 수입해 와서 동료 교수나 박사급 연구원들을 대상으로 방법론 학회를 열기도 한다. 이 사람들은 전공만 교육학, 사회복지학, 사회학일 뿐, 이과 박사들까지 모아놓고 통계세미나를 열면서 돈을 버는 굇수들로 통계학 대학원생도 압도할 만큼의 지식을 갖추고 있다. 가령, 계량 마케팅 분야 연구는 거의 교수들에 의해 수행되고 있으며 대학원생은 논문을 쓰지도 못한다.

1.1. 공부의 단계

양적 연구방법론에서 가장 기초가 되는 부분은 변인이다. 독립변수와 종속변수가 무엇인지 모르면 아무 것도 할 수 없기 때문이다. 그리고 어떤 방법이 있고 각 방법이 어느 정도 어려운 방법인지 이해해야 각 방법에 접근이 가능하다.

양적 연구방법론 교재를 펼쳤을 때 다루는 가장 첫 부분은 기술통계, 통계적 추론이다. 기술통계에 대해서는 평균, 분산, 표준점수, 공분산, 효과크기에 대해 알아야 한다. 가설검정(통계적 추론)에 대해서는 t-검정, 상관분석은 알아야 한다. 그리고 실험설계, 자료수집에 대해서도 알아야 한다.

실제 논문 쓰기는 회귀 분석, 일원-이원 분산분석에서부터 시작한다. 종속변수가 연속변수가 아닐 때에는 카이-제곱 분포와 로지스틱 회귀에 대해 알아야 한다. 대학교 1학년의 통계학 개론 수업 정도면 여기까지는 충분히 다룬다.

중간보스요인분석과 다변량 분산분석에 해당한다. 대학원에서 한 학기 정도 강의를 진행한다면 이 정도까지 알 수 있게 된다. 물론 이 강의를 수강한다고 해서 곧바로 양적 논문을 휘갈겨 쓸 줄 알게 되는 건 절대 아니다. 게다가 강의시간 내내 복잡한 수식 놀음만 하다가 정작 한 학기가 끝나고 나서도 학생들이 크론바흐의 알파(Cronbach's Alpha)를 언제 어떻게 써먹는지, 그 값은 또 어떻게 구하는지, 조작 점검(manipulation check)을 할 때 왜 t-검정을 해야 하는지 같은 기본 중의 기본조차 모르게 되는 경우가 태반인 게 사실. 현장 연구자들 중에는 일선의 통계 강의 커리큘럼 자체의 비효율성에 대해 비판하는 사람들이 많다.

고급단계에는 횡단면 분석, 시계열 분석, 메타분석, 구조방정식, 다층모형 등이 들어간다. 박사과정으로 갈 수록 이런 방법론을 많이 활용하게 된다.

최근의 양적 연구방법론은 하나만으로도 어려운 고급 기법들을 이리저리 섞어서 쓰고 있다. 패널분석 (횡단면+시계열), 진단검사 메타분석, 메타구조방정식 (구조방정식+메타분석), 네트워크 메타분석, 다층구조방정식 (구조방정식+다층모형), 다층 메타분석 (다층모형+메타분석) 등은 최종보스다.

초보적 기법에 대해 잘 모르는 상태로 무조건 어려운 기법을 적용하려 하면 기초지식의 문제로 문제가 생기기 쉽다.

2. 서론: 기술통계와 통계적 추론

통계학에는 크게 두 가지가 있다. 첫째는 연구 대상의 전체 또는 일부분을 통계해 수치를 뽑아 숫자와 그래프로 정리하는 기술 통계(descriptive statistics)이다. 둘째는 일부분의 관찰 결과를 토대로 전체 관찰 결과, 또는 오지 않은 미래를 추정, 예측하는 통계적 추론(statistical inference)이다. 물론 이상적으로 보자면 통계적 추론보다는 기술통계량이 더 선호된다. 기술통계량은 표본의 표집 과정에서 발생하는 오차(sampling error)의 가능성이 0이기 때문이다. 그러나 연구대상이 너무 거대해서 전수조사가 불가능한 경우가 있고, 전수조사를 하기에는 시간과 예산이 모자라는(…) 경우가 있으며, 연구의 특성상 (ex. 내구성 검사, 수명 검사 등) 전수조사를 하면 안 되는 경우가 있다. 결국 통계적 추론은 이상과 현실의 타협점이다. 감당할 수 있을 만큼 오차를 무릅쓰면서, 충분히 높은 정확성을 유지하여 전체 대상을 예측하고, 그러면서 자신이 유발시키는 오차를 정확히 명시하는 것이다. 결국 이론적인 복잡성은 통계적 추론이 한참 더 심할 수밖에 없다.

위에서는 대충 연구의 주제가 되는 대상이니 뭐니 했지만, 좀 더 정확히 표현하자면 다음과 같다. 연구의 주제가 되는 대상을 모집단(population)이라고 한다. 그리고 모집단의 수치화된 특성을 데이터로 정리하면 모수(parameter)가 된다. 반면, 통계적 추론에서는 용어가 또 달라진다. 연구를 위해 뽑아낸 표본표본집단(sample)이라고 하며, 여기서 얻어낸 특성에 대한 데이터를 통계량(statistic)이라고 한다. 통계적 추론의 목적을 다시 설명하면, 표본집단의 통계량을 가지고 모집단의 모수를 최대한 정확하고도 효율적으로 추정하는 것이라고 할 수 있다.

기술 통계학이나 통계적 추론이나 쓰임새 자체는 분야에 따라 다 다르다. 그러나 일반적으로 많은 통계학 강의들에서는 통계적 추론에 상당한 방점을 찍고 있다. 추론을 해야할 만한 때가 많고 이론적인 정교함과 엄밀함도 높기 때문이다. 경제통계학, 인구학(demography) 같은 분야에서는 기술통계학이, 계량경제학, 경영학이나 행정학, 사회학 등의 분야에서는 추론통계학이 쓰인다. 특히나 인구주택총조사와 같은 센서스(census)는 기술통계학의 꽃이라 할 수 있으며, 심리학 등의 분야에서 고작 십수명 앉혀놓고 연구한 결과를 일반화시키는 기예를 선보이는 것은 통계적 추론의 첨단을 달리는 기법이라고 할 수 있다.

자세한 내용은 표본조사 항목을 참고.

2.1. 기술 통계의 시각화

statistical graphics

기술 통계학 문서 참조.

3. 확률 변수: 이산적 자료와 연속적 자료

확률 변수 문서 참조.

4. 중심화 경향: 평균, 중앙값, 최빈값

central tendency

대푯값 문서 참조.

5. 분산과 표준 편차

variance & standard deviation (var & stdev)

이산적 자료에서 분산은 각각의 관찰값들과 평균 사이의 편차를 제곱한 결과값을 평균한 것 (관찰값의 편차제곱의 평균)이다.

연속적 자료에서의 분산은 확률밀도함수 상에서의 기대값이다. 즉, 다음 표현과 같다.

  • 평균으로부터 특정 확률변수가 평균적으로 나타내는 거리
  • '이산적 자료에서의 분산의 정의'를 '확률분포의 면적'으로 표현한 것
  • 확률 밀도 함수의 모양이 평균으로부터 산포하고 있는 정도

분산을 처음 접했을 때 갖게 되는 흔한 의문은 "각 관찰값들이 평균으로부터 떨어진 거리를 재려면 (-) 부호를 떨어뜨려야 한다는 건 알겠는데,[1] 어째서 절대값이 아니라 제곱을 활용하는 거지?" 이다. 물론 여기서 절대값을 취하는 것도 가능은 하나, 향후 통계적 활용에 어려움이 있어서 잘 쓰이지는 않는 편이다. 만일 제곱 대신에 절대값을 활용할 경우, 이는 별도로 평균편차(MAD)라고 불린다. 분산에 제곱을 활용했다는 사실은, 이후 다시 표준편차가 왜 제곱근을 취하는지도 설명할 수 있다.

평균이 같다고 하더라도 분산이 다르면 이는 명백히 다른 통계적 정보를 제공하게 된다. 연속적 자료의 경우, 분산이 다르고 평균이 같은 두 정규분포는 한쪽은 늘씬한 키다리 분포, 한쪽은 땅딸막하고 뚱뚱한 분포를 보이게 된다. 보통 분산이 커질수록 분포의 키는 낮아지고 그만큼 극단값이 나타날 확률은 증가하게 된다. 정규분포의 꼭대기를 손가락으로 꾸욱 눌렀을 때 좌우 주변부가 들려올라가는 상황을 상상해 보자.(…) 보통 분산은 제곱의 형태이기 때문에 향후 통계적 활용에 어려움이 있어, 일반적으로는 분산에 제곱근을 취하는 표준편차를 더 자주 사용한다.

편차 정보가 제곱으로 인해 부풀려진 것이 분산이므로, 이제 그 부풀려진 것을 원상복구시키기 위해 제곱근을 취한 것이 표준 편차다. 표준편차는 통계적 활용이

다양한 자료이므로 연구자들이 관심 갖고 지켜보는 데이터이다. 특히 나중에 표본조사를 할 경우 튀어나오는 표본표준편차(sample standard deviation)의 경우 실제로 통계적 추정을 할 때 중요하게 활용되곤 한다. 와중에 공식도 약간 달라져서 n으로 나누는 게 아니라 n-1로 나눠주는 차이가 생긴다.

6. 자유도

degrees of freedom

자유도 문서 참조.

7. 분포

8. 추정: 추론 통계학

추론 통계학

  • 점추정
    • 불편추정량
    • 최대우도추정 (MLE)
    • 독립항등분포 (i.i.d.; independent and identically distributed): 독립성, 정규성, 등분산성 vs. 내생성, 다중공선성, 이분산성
  • 오차범위와 신뢰구간
    • z-통계량을 활용한 추정
    • t-통계량을 활용한 추정
  • 표본크기의 결정

8.1. 오차 범위와 표본 크기

원하는 오차 범위(허용 오차) ε이 나오기 위해서 필요한 표본 크기(sample size) n을 계산할 수 있다. 표본이 클 수록 오차는 작아지지만, 조사 비용이 늘어난다.

ε: 오차 범위(허용 오차, margin of error). "여론 조사 결과 신뢰 수준 95%에 지지도가 38±3%로 나왔다"와 같은 식으로 오차 범위를 퍼센트(백분율)로 표기하려면 ε에 100을 곱해준다.

z: 신뢰 수준과 관련된 z-값(z-values, z-score). 신뢰 수준 95%일 경우 1.96, 99%일 경우 2.58이다.

σ2: 모 분산의 추정치. 사전 정보나 경험을 토대로 추정하거나 선행 연구(pilot study)에 의해 추정한다.

n: 표본의 갯수(sample size). 1,000명을 대상으로 한 설문 조사의 경우 n = 1,000이다.

p: 조사 특성값을 가질 비율추정치. 사전 정보나 경험을 토대로 추정하거나 선행 연구(pilot study)에 의해 추정한다.

1-p: 조사 특성값을 가지지 않을 비율의 추정치.

  • 오차 범위(분산을 아는 경우)

\displaystyle ε = z \sqrt{\frac{σ^2}{n}}

  • 오차 범위(분산을 모르는 경우)

\displaystyle ε = z \sqrt{\frac{p(1-p)}{n}}

분산 σ2 대신 p(1-p)를 쓸 수 있다.

\displaystyle n = z^2 \frac{σ^2}{ε^2}

오차 범위 공식의 양변을 제곱하여 유도한 공식이다.

ε: 평균값의 단위와 같은 단위로 나타내야 한다.

\displaystyle n = z^2 \frac{p(1-p)}{ε^2}

ε: 비율로 나타내야 한다.

표본크기의 결정

[통계] 신뢰도(Confidence) 수준과 표본오차 구하는 방법

선거 여론조사에서 샘플 크기에 따른 오차범위 계산법

표본조사- 오차범위(margin of error) 혹은 표본오차범위의 의미, 지지율의 신뢰구간과 샘플크기 결정문제

8.2. 비모수적 방법

추론 통계학에서 사용하는 방법은 모수적 방법(parametric method)과 비모수적 방법(nonparametric method)이 있다.

모수(parameter)는 모집단(parameter)의 수치적 특성을 말한다. 정규 분포를 따르지 않거나 표본이 10개 미만의 소규모 실험에서는 정규분포라고 가정할 수 없으므로 비모수적 방법을 써야한다.

수량화할 수 없고 평균을 낼 수도 없는 순위 척도의 경우에도 비모수적 방법은 사용 가능하다.

연속형 자료의 경우 표본의 숫자가 30개 초과일 경우 모수적 방법을 사용할 수 있다. 10개 미만일 경우 비모수적 방법을 사용해야 한다. 10개 이상, 30개 이하일 때는 정규성을 검정하여 정규성을 띠면 모수적 방법, 정규성을 띠지 않으면 비모수적 방법을 사용해야 한다.

모수적 방법에는 독립 표본 t-검정, 대응 표본 t-검정, 일원배치 분산 분석, 반복 측정 분석, 반복이 없는 이원배치 분산 분석, Pearson의 상관 분석 등이 있다.

비모수적 방법에는 윌콕슨 순위합 검증(Wilcoxon rank sum test, 만-위트니 U 검증, Mann-Whitney U test), 윌콕슨 부호 순위 검증(Wilcoxon signed rank test), 크루스칼-왈리스 검증(Kruskai-Wallis test), 프리드만 검증(Friedman test), Spearman의 순위 상관 분석 등이 있다.

모수적 방법과 비모수적 방법

9. 통계학적 검정

  • 유의수준: 알파와 베타
  • 임계치, 기각역, 채택역
  • 효과크기
  • 검정의 종류
    • 표본 크기와 모 분산 정보
      • z-검정 (단일표본)
      • z-검정 (2개 독립표본)
      • t-검정 (단일표본): 스튜던트 t검정이라고도 한다. 이걸 발견한 고셋이 겸손하게 자신을 student 즉 학생이라 지칭한 데서 유래한다. 고지마 히로유키,'통계학 입문',박주영 역,지상사,2009,p210.
      • t-검정 (2개 독립표본)
    • 모분산검정
  • 비모수검정
    • 순위검정: Mann-Whitney 검정
    • 순위검정: Wilcoxon의 T-검정
    • Kruskal-Wallis의 H-검정
    • Freidman의 반복측정검정
  • 사후검정 및 다중비교
    • 분산분석: Tukey의 HSD 검정
    • 카이제곱: 중앙값 검정
    • Bonferroni의 교정
    • Scheffe의 방법
    • 어디서든 효과 (look-elsewhere effect)

9.1. 결정 규칙: 영 가설과 대립 가설

통계학에서는 틀렸다고 기각할 영 가설(null hypothesis)과 맞았다고 검증하고 싶은 대립 가설(alternative hypothesis)의 쌍을 만들어놓고 영 가설이 틀렸음을 검증해보인다. 영 가설(null hypothesis)은 귀무 가설이라고도 부르고 기호로는 H0이라고 적는다. 대립 가설(alternative hypothesis)은 연구 가설이나 유지 가설이라고도 부르며 기호로 H1이라고 표기한다.

유의 수준 α가 0.05인 신뢰 수준(신뢰도) 95%의 경우 틀릴 확률이 5% 이할일 경우에만 H1을 채택한다는 소리이므로 유의 확률 p-값이 0.05보다 작아야 채택한다.

점 추정(point estimation): 표본의 통계량으로 모수를 추정하는 것이다.

구간 추정(interval estimation): 점 추정만으로는 모수가 얼마나 정확하게 추정되었는지 모르므로 모 평균이 존재할 구간을 확률적으로 추정하는 것이다.

유의 수준(significance level): 제1종 오류를 범할 확률의 최대 허용 한계이다. 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다. 제2종 오류를 범할 확률의 최대 허용 한계는 β라고 한다.

신뢰 구간(confidence interval, CI): 실제로 모수가 존재할 것으로 예측되는 구간이다. 보통 신뢰도 95%의 신뢰 구간을 쓰지만 99%도 많이 쓰고, 가끔 90%도 쓴다. (a, b)라고 써놓으면 a는 구간의 시작, b는 구간의 끝을 의미한다. 100(1-α)%의 신뢰 구간이라고 부른다. 반복적으로 모 평균 μ에 대한 구간 추정을 시행하면 이들 중 95%에 해당하는 신뢰 구간이 참값 μ를 포함한다는 의미이다.

신뢰 수준(confidence interval level) 또는 신뢰도(reliability): 해당 구간에 모 평균이 있을 확률이 95%라는 뜻이다. 1-α나 100(1-α)%로 적는다. 신뢰도 95%라는 건 H1이 틀릴 확률이 5% 이하라는 것이다.(α=0.05) '신뢰도 95%의 신뢰 구간'과 같은 식으로 쓴다.

p-값(p-value, probability value) 또는 유의 확률(significance probability, asymptotic significance): 귀무 가설 H0를 기각할 수 있는 최소한의 유의 수준(α)이다. 제1종 오류가 발생할 확률이다. 즉, H1을 선택했을 때 틀릴 확률이다. p-값이 α보다 작으면 H1을 선택한다.(p-값이 α보다 크면 H0를 선택한다.)

영가설이 맞다고 가정할 경우 관측된 데이터 이상으로 극단적인 데이터가 관측될 확률이 p-값(p-value)이다. p 값은 0~1 사이의 값이며 그 값이 작을수록 영가설과 데이터가 불일치한다고 생각하면 된다. 즉, p값이 작을수록 데이터가 영가설을 반박한다는 것으로 해석할 수 있다. 사이언스온: ‘통계적으로 유의미한 결과’는 얼마나 유의미할까 2016. 05. 20

임계 값(critical value, threshold value): 검정 통계량의 분포에서 유의 수준 α에 해당하는 선 위의 값이다.

일부 데이터를 폐기하여 p-값을 조작하는 것을 p-해킹이라고 부른다.

9.2. 단측 검정과 양측 검정

한국 여성의 평균 몸무게가 60kg이라는 가설 검정(hypothesis test)을 할 때 영 가설은 다음과 같이 세울 수 있다.

H0: μ = 60

대립 가설은 다음과 같이 여러 형태가 있다.

제1형 H1: μ ≠ 60

제2형 H1: μ < 60

제3형 H1: μ > 60

제1형은 양측 검정(two-sided test, two tailed test)이며 제2~3형은 단측 검정(one-sided test)이라고 한다. 단측 검정 중 제2형은 좌측 검정(lower tailed test), 제3형은 우측 검정(upper tailed test)이라고 한다.

양측검정은 기각 영역(rejection region)이 양쪽에 있는 것이다. 따라서 유의 수준 α도 양쪽으로 반씩 나눠서 한쪽의 면적이 α/2가 된다. 단측검정에서는 기각 영역이 양쪽 중 한쪽에만 있다.

카이-제곱 분포F-분포확률 밀도 함수 그래프의 형태상 우측 검정만 가능하다. z-분포t-분포좌측 검정양측 검정도 가능하다.

9.3. 제1종 오류와 제2종 오류

통계적 추론(statistical inference)의 하나인 통계적 가설 검정(statistical hypothesis test)에는 type I error와 type II error가 있다. 제1종 오류는 맞는 영 가설 H0를 기각하는 오류이다. 즉, H1 채택이라고도 볼 수 있다.

제2종 오류는 틀린 영 가설 H0를 채택하는 오류이다.

만약 H0가 "이 약은 효과가 없다"이고, H1이 "이 약은 효과가 있다"라면, H0를 채택하는 것은 2종 오류로 약을 팔 수 없을 뿐 별 문제는 없다.

하지만 만약 H0를 기각(H1 채택)하는 1종 오류를 범한다면 환자가 효과 없는 약을 먹고 낫기는 커녕 오히려 병세가 악화될 수도 있다.

10. 분석

11. 통계 소프트웨어

11.1. 빅 데이터 프로세싱

빅 데이터 프로세싱

11.2. VENSIM

모델링을 구축하여 시뮬레이션을 명령할 때 쓰는 프로그램으로, Ventana Systems 사에서 개발하였다. 학술적인 목적일 경우 이 링크에서 무료 다운로드를 할 수 있다. 이름의 유래는 역시 자기네 회사 이름의 앞글자를 딴 것.

저량(stock)과 유량(flow)의 개념을 활용하여 각종 변인들을 설정할 수 있으며, 초기값을 지정한 후 시뮬레이션 회기를 돌려 보면 그 변화량의 추이가 그래프 형태로 제출된다. 활용 가능성이 꽤 큰 프로그램인데, 경영학에서 재고품을 처리하는 방법을 강구하기 위해, 행정학에서 국민연금의 적립금 추이를 예측하기 위해, 생태학에서 특정 서식지 내 한 종의 개체 수의 추이를 예측하기 위해 모형을 만드는 것이 가능하다. 당장 위의 사례 역시 생태학에서 만든 모형이다.

11.3. GrafEq

수식을 입력하면 그에 맞게 좌표평면 상의 그래프를 출력해 주는 수학 프로그램이다.

11.4. AMOS

AMOS는 확인적 요인분석에 활용되는 모델링 프로그램으로, SPSS와 함께 IBM과 제휴하여 제공되고 있다. SPSS와 마찬가지로 매우 직관적이고 진입장벽이 낮다는 점이 장점이며, 최초 개발자는 심리학자인 J.L.Arbuekle이다. 이름의 유래는 Analysis of Moment Structure의 약자.

구조방정식(SEM)을 다루기에 심히 적절해서 오늘날 많은 연구자들의 Must-Have 아이템이 되었지만, 정작 도입된 역사는 매우 짧다는 것이 문제. 국내 전문가로는 이학식, 김계수, 이기종, 우종필, 배병렬 등이 있다. 경쟁 관계인 LISREL[2]이나 MPLUS[3] 같은 다른 프로그램들에 비해 장점이 확실히 많다. LISREL은 진입장벽이 너무 높고, MPLUS는 아는 사람들만 아는 강력한 프로그램이라고 통하고 있지만 고금의 탁월한 컴퓨터 소프트웨어들이 늘 그렇듯이 좀체 상용화가 되지 않았다.

모형에서 각각이 의미하는 바를 설명하자면, 사각형 박스는 관찰변인, 타원형 박스는 잠재변인,[4] 일방향 직선 화살표는 인과관계, 쌍방향 곡선 화살표는 상관관계를 의미한다.

사용상의 소소한 팁으로는, “Draw a latent variable” 또는 “Add an indicator to a latent variable”을 쓰면 더 빠른 작업이 가능하다는 것, 텍스트를 많이 포함할 경우 처음부터 큼직한 모형으로 그려야 한다는 것, 복잡하고 큰 모형이 있으면 “Resize the path diagram to fit on a page” 기능을 쓰면 된다는 것, 마지막으로 상관관계 화살표는 좌에서 우로, 우에서 좌로, 상에서 하로, 하에서 상으로 그릴 때마다 모양이 다 달라진다는 것 등이 있다. 누군가에게는 도움이 되겠지

12. 관련 문서


  1. [1] 이걸 하지 않으면 평균으로부터의 모든 편차의 총합은 무조건 0이 되기 때문이다.
  2. [2] 통계학자 K.Joereskag에 의해 개발되었으며, 국내에는 90년대에 소개되었다. 그리스 문자에 기초한 기호를 활용하며, 모든 명령어는 행렬 형태로 코딩된다.
  3. [3] 통계학자 B.O.Muthen이 개발했다. 강력하고 경량화된 프로그램으로, 분석 범주가 넓다. 일반 연구자들보다는 통계적 방법론 전문 연구자들이 활용하고 있다고.
  4. [4] 잠재변인의 indicator는 측정오차를 갖고 있으며, indicator 중 하나와 1의 관계를 가짐으로써 그 단위가 부여된다.

최종 확인 버전:

cc by-nc-sa 2.0 kr

Contents from Namu Wiki

Contact - 미러 (Namu)는 나무 위키의 표가 깨지는게 안타까워 만들어진 사이트입니다. (static)