※ K-Mooc 통계학 / 전공 데이터 애널리틱스 강의를 듣고 정리한 내용입니다.



통계적 추론 (Statistical Inferences)

통계적 추론, 추론 통계는 샘플을 통해 모집단의 특성을 추론하는 것을 말한다. 통계적 추론은 ‘추정’과 ‘가설 검정’의 과정으로 나뉘고 ‘추정’은 다시 ‘점 추정’ 또는 ‘구간 추정’으로 나뉜다.

  • 통계적 추론 = 추정 + 가설검정

  • 추정 = 점추정, 구간 추정





점 추정

표본으로 얻은 정보를 이용해 모수를 특정한 하나의 값으로 추정하는 방법이다.

모수는 라고 하고, 점 추정치는 라고 한다. 부터 까지 표본들의 함수로 구성되어 있다. 이 , …, 는 평균, 분산 등의 통계량을 뜻한다. 따라서, 이 표본들에 따라서 값은 달라진다.

※ 통계량 : 모수 추정을 위해 표본을 이용해 만든 함수. IQR, 평균, 분산 등



불편 추정치(unbiased estimator)

를 만족하면 에 대한 불편추정치라고 한다. 불편이라고 하는 것은 ‘치우치지 않음’을 뜻하는 unbiased을 직역한 것이다. 의 기댓값이 라는 것은 표본으로 통계를 내서 추론했을 때 모집단과 일치한다는 뜻이다. 즉, 모집단에서 벗어나 어느 한쪽으로 치우쳐진 게 아니므로 ‘불편(unbiased)’라고 한다.



점 추정치 X의 성질

  • 에 대한 불편추정치다.
  • 표본 분산
  • 표준 편차 (σ를 아는 경우)
  • 표준 오차 σ를 모르는 경우



σ 대신 s를 쓴다(σ 대신 추정치를 썼다는 것을 표시해주는 것이다.). 는 표본 분산에 루트를 씌워서 구한 점 추정치이다. 이 경우 표준 편차가 아니라 표준 오차(Standard Error)라고 부른다. 표준오차는 쉽게 생각하면, 표준편차의 추정치라고 생각하면 된다.



모분산 에 대한 점 추정치 의 성질

에 대한 불편추정치이다.





구간 추정

참값인 모수가 속할 것으로 기대되는 범위를 구하는 과정이다. 다른 말로, 구간 추정은 우리가 모르는 모수 의 특정 구간을 추정하는 것이다. 구간 추정 수식은 다음과 같이 나타낼 수 있다.


모수 에 대한 신뢰구간은

를 만족하는 구간이다.


신뢰 수준을 뜻한다. 보통 0.01, 0.05, 0.1 등의 값을 많이 가지며 이에 따라 신뢰 구간은 99%, 95%, 90% 등이 많이 쓰인다. 는 low bound(하한선)이고, 는 upper bound(상한선)을 뜻한다.

즉, 예를 들어 95%의 신뢰 구간이라는 것은 모수 가 low bound와 upper bound 사이의 경계에 존재할 확률이 95%라는 것이다.



대표본일 경우

표본 함수 부터 인 임의 표본 인 경우, 즉 표본의 크기 n이 25보다 큰 ‘대표본’인 경우는

중심극한정리에 따라 표준정규분포 에 수렴하게 된다. 이에 따라, 모평균 가 하한선, 상한선 사이에 있게 될 확률이 이다.

※ 중심극한정리 : 표본의 크기 n이 충분히 클 때, 표집 분포는 표준정규분포 에 수렴한다.

하지만, 주의할 것은 완전히 표준정규분포가 되는 것이 아니라 ‘근사적’으로 표준정규분포에 수렴하는 것이므로 신뢰 구간 역시 ‘근사적 신뢰구간’을 쓰게 된다. 이 경우에는 2가지로 나뉠 수 있다. 모수 σ를 아는 경우와 모르는 경우. 이 두 경우에 대한 근사적 신뢰구간은 다음과 같다.

  • σ를 아는 경우
  • σ를 모르는 경우

는 표준오차이다.



소표본일 경우

표본의 크기 n이 25보다 작은 경우 ‘소표본’이라고 하며 대표본과는 다른 구간 추정을 한다. 이때는 임의 표본 가 반드시 정규분포 을 따른다는 가정이 필요하다. 또한, (시그마)를 모를 경우, 표준값 z-score는 추정치 s를 대입한



와 같다. 추정치 s를 대입하는 이유는 표본의 크기 n이 작기 때문이다.