※ 강의 데이터 애널리틱스를 듣고 정리한 내용입니다.



통계

1. 통계를 해야하는 이유

  • 인사이트를 도출하기 위해
  • 현상을 양적으로 설명하기 위해 -> 경험주의, 논리실증주의


2. 통계의 3가지

통계가 유의미한 데이터가 되기 위해서는 다음 3가지를 충족해야 한다.

  • 두 변인(독립, 종속)과의 상관관계가 존재하는가?
  • 제 3변인을 통제했는가?
  • 시간 순서가 앞뒤로 일어나는가? 타임 오더(인과 관계)

어느 저명한 의학 학술지에서 발표된 통계 자료에 의하면 ‘초콜릿 소비가 많을 수록 노벨상을 탈 확률이 높다’는 결과가 나왔다. ‘이케아 매장이 많을 수록 노벨상을 탈 확률이 높다’와 같이 그를 조롱하는 다른 통계 자료도 발표되었다. 두 변인 간의 상관관계가 존재하는 것처럼 보이지만, 제 3의 변인을 통제했는지의 여부는 알 수 없다. 3가지 중 일부만 충족하는 게 아니라 전부 충족해야 유의미한 통계라고 할 수 있다.



기술통계 : 표와 그래프

통계를 바라보는 2가지 패러다임

  1. 빈도주의 : 메인 패러다임

빈도주의는 ‘모든 데이터 샘플은 정규분포를 갖고 있다’는 가정을 전제로 한다. 반대로 해석하면, normal이 존재하지 않다는 가정이 깨지면 통계의 의미가 사라진다는 뜻이다.

딴 얘기긴 한데, ‘평균’과 관련해서 최근 토드 로즈가 저술한 ‘평균의 종말’이라는 책을 읽고 있다. ‘평균’이라는 게 실제 세계에서 얼마나 의미가 있느냐는 내용이다. 사람들의 신체 치수는 숫자이므로 물론 평균을 구할 수 있지만, 책에 의하면 그 평균에 꼭 맞는 사람은 아무도 없었다. 우리도 사회 현상을 관찰하고 하나의 사실을 발견하기 위해 통계를 내고 일반화를 하지만 ‘~이면 ~다’라는 사실로 딱 맞아 떨어지는 것은 없는 것 같다. 위의 유의미한 통계의 3가지 기준 중 제 3의 변인은 현실 세계에서 완벽히 통제하기란 어렵기 때문이다.


  1. 베이즈 통계 : 마이너지만 부상하고 있는 패러다임

빈도주의자들은 정규분포를 갖고 있다는 것, 분포가 이미 정해져있다는 걸 가정한다. 하지만 베이지안들은 그러한 사전 분포를 가정하지 않고, 사후의 분포를 생각한다.

예를 들어 동전을 던진다고 해보자.

빈도주의자들은 무한대로 던진다는 가정 하에 동전을 던지는 확률은 1/2이라고 생각할 것이다. 하지만, 베이지안들은 ‘동전이 약간 휘어져있다면 어떨까?’라는 질문부터 시작해 모든 분포가 정해져있다는 걸 가정하지 않는다.



기술 통계

  • 데이터를 기술, 묘사한다.
  • 표, 그래프나 수치, 통계치
  • 등간, 서열, 명목 척도(등간 척도가 되면 서열, 명목 척도도 충족된다)



추리 통계

샘플을 가지고 모집단을 추론한다.



표(빈도 분포)

  • 5~10개 집단 사용.
    • 간격 정하는 법 : (큰값 - 작은값 )/ 만들고 싶은 집단 개수
  • 상대빈도 : 상대적인 빈도로 분포를 나타내는 것
    • frequency가 전체에서 얼마나 차지하는지 비율로 나타낸 것.
    • 특정 집단의 빈도가 전체에서 얼마나 차지하는지 알 수 있다.
  • 누적분포(cumulated distribution)
    • 누적으로 집계하는 것.



그래프의 종류

  1. 막대

  2. 파이 : 전체에서의 비율을 나타낼 때 보기좋게 보여준다.

  3. 히스토그램
    • x축이 연속된 변인으로 이루어져있다.
    • 평균을 구할 수 있다.
    • U 형태, 종모양
    • 종모양 : 평균을 중심으로 최대 빈도가 나타난다.
    • U형태 : 극단치들의 비율
      • lower tail(left tail) / upper tail(right tail) : 우리나라 말로 왜도, 편포라고 한다. (skewed : 치우쳐져 있다.)
      • Skewed right : 반비례한다/극단치가 오른쪽에 존재한다. ex) 100점이 한 사람만 존재할 때.
      • Skewed left : ex) 0점이 한 사람만 존재한다.
    • 봉 하나를 unimodal (하나의 최빈값, 가장 많은 값)이라고 한다.
  4. 산포도(scatter) : 데이터 포인트들이 흩뿌려져있는 그래프. 보통 두 변인의 관계를 볼 때 사용한다.



Variance(변량)

  1. Outlier : 극단치, 평균에서 너무 떨어진 수치를 말한다. 평균은 outlier의 영향을 많이 받는다. 예를 들어 “oo의 월등한 점수 덕분에 반 평균 점수가 상향됐다.” 같은 말처럼, outlier의 넘사벽(양적, 음적) 값이 평균을 움직인다.

  2. Median : 순서대로 정렬된 리스트 중 가장 가운데 번지에 있는 값. 만약 짝수라면 가운데 있는 수가 2개가 되므로 두 median을 더해 2로 나눈다.

  3. Variance : 변량. 편차(평균에서 떨어진 정도)를 제곱한 값들의 평균값이다. sample에서는 N이 아니라 N-1로 나누는 이유 : 자유도 고려. population(모집단)에서는 N으로 나눔.

  4. 변량 == 0이 되는 순간 : 모두가 평균에 위치하는 순간이다. 변량이 없으면 상관관계가 있다고 할 수 없다. 정비례든 반비례든 일정한 변량이 갖춰져 있어야 상관관계를 따질 수 있다.

  5. Empirical Rule(경험적 규칙) : 정규 분포를 이루고 있다는 가정 하에, 데이터 일부는 신뢰도 수준에 따라 특정 편차 내에 존재한다.

예를 들어, 0~100점까지 100명의 시험 성적 데이터가 평균 50이라고 해보자. 신뢰도 95% 수준에서 95%에 해당하는 학생들의 시험 성적은 맞출 수 있다(5점~95점). 하지만 그 밖 구간에 존재하는 outlier(극단치) 학생들의 시험 성적은 예측할 수 없다.

  1. Quartile(사분위수)

스페인어로 4는 quatro이다. 스페인어와 비슷하게 quartile은 4분위수이다. 4분위수는 데이터셋을 4분하여 구간을 나누는 기준이 된다. Quartile은 보통 모집단을 특정 그룹으로 나눌 때 사용한다.

  • IQR(InterQuartile Range) : 각 사분위 사이의 구간, 범위를 말한다. IQR 구간은 QR3 - QR1만큼의 배수를 IQR의 구간으로 잡는다.
  • 적절한 IQR의 범위 : IQR의 범위를 벗어나는 값들은 outlier로 판단한다. 보통 IQR 구간의 배수를 1.5로 잡지만 이는 평균에 가까운 값들도 outlier로 판단해버릴 수 있는 작은 수이다. 따라서 outlier가 너무 많다 싶으면 배수를 3으로 늘려도 무관하다.
  • R에서의 outlier 함수는 1.5 IQR로 계산한다고 한다. 따라서 3의 배수를 사용하는 커스터마이징 함수를 사용하는 것도 좋을 것 같다.