해야겠지?

카테고리 없음

[프로그래밍 확률 통계] 04 추론 및 가설검정

jinyong 2023. 5. 27. 16:40
728x90
반응형

<여러가지 확률분포>
확률분포: 모집단으로부터 얻어지는 상대도수 분포. 발생 가능한 모든 사건과 발생 가능성을 나타냄
이산확률분포: 확률변수의 값이 정수와 같이 이산적인 값을 가진 경우 이산확률변수라 하고 이산확률변수의 분포를 이산확률 분포라 한다.
연속확률분포: 확률변수의 값이 실수 집합처럼 연속적이고 무한개의 경우를 가질 경우 연속확률변수라 하고 연속확률변수의 분포를 연속확률분포라 한다.

 


1. 이산확률분포

  1) 베르누이 시행
    - 각 시행은 성공과 실패 두 가지 중 하나의 결과를 가짐 (동전던지기)
    - 각 시행에서 성공확률은 p, 실패확률은 1-p
    - 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않음


  2) 이항분포
    - 베르누이 시행을 반복했을 때, 성공하는 횟수의 확률분포
    - 이항실험: 성공확률이 동일한 베르누이 시행을 독립적으로 반복하는 실험
    - 이항확률변수: 전체 시행 중 성공의 횟수에 따른 확률변수
    - 이항확률변수 X의 확률질량함수
    - X ~ B(n, p) : 시행횟수가 n, 성공확률이 p 인 이항분포
    - m(평균) = np
    - S²(분산) = np(1-p)
    - S(표준편차) = √np(1-p)

stat_bin = scipy.stats.binom.(n, p)  #이항분포 확률변수
stat_bin.pmf(x축)  #확률질량함수 시각화
stat_bin.cdf(x축)  #누적분포함수 시각화
np.random.binomial(n, p, size)  #이항분포 랜덤샘플


    ※ 확률함수 종류
     - PMF(Probability Mass Function): 확률질량함수 (이산형 분포의 확률함수)
     - PDF(Probability Density Function): 확률밀도함수 (연속형 분포의 확률함수)
     - CMF(Cumulative Mass Function): 누적질량함수 (이산형 분포의 누적확률함수)
     - CDF(Cumulatvie Density Function): 누적밀도함수 (연속형 분포의 누적확률함수)


  3) 초기하 분포
    - 유한한 모집단에서 비복원 추출 시 성공 횟수의 분포 (불량률 계산 등에서 사용)
      (X: 표본 내에서 관심있는 범주(불량품 개수) 에 속하는 구성원소의 수)
    - X ~ Hyper(M, n, N) / M: 모집단의 크기, n: 관심있는 범주에 속하는 구성원소 수, N: 표본의 크기

stats_hyp = scipy.stats.hypergeom(M, n, N)


  4) 포아송 분포
    - 단위시간/공간에 드물게 나타나는 사건의 횟수에 대한 확률분포
    - 연속적인 시간에서 매 순간에 발생할 것으로 기대되는 평균 발생횟수를 이용해 주어진 시간에 실제로 발생하는 사건의 횟수 분포
    - 연속된 시간 상에서 확률은 매우 낮아도 매 순간 발생 가능하다 → 시행 횟수가 많고 순간의 확률은 작기 때문에 이항분포로 설명하기 어려움
    - 예시: 일정 시간동안 발생하는 불량품의 수, 일정 페이지의 문장을 했을 때 발생하는 오타의 수, 강도를 만날 확률
    - 이항분포 B(n,p) 에서 n이 매우 크고 p가 매우 작은 경우 λ = np 포아송 분포로 근사 가능

 


2. 연속확률분포

  1) 균일분포
    - 구간 [a,b]에 속하는 값을 가질 수 있고 그 확률이 균일한 분포; X ~ U(a,b)

stat_uni = scipy.stats.uniform(a, b)  #균일분포 확률변수
stat_uni.pdf(x축)  #확률밀도함수 시각화
stat_uni.cdf(x축)  #누적분포함수 시각화
np.random.uniform(a, b, n)  #균일분포 랜덤샘플 (a에서 b까지 n개 추출)


  2) 정규분포
    - 가장 많이 사양되는 분포로 종형 곡선의 분포. 평균(μ or m),과 표준편차(σ) 두 모수로 정의
    - N(m, σ²)
    - 모집단이 이항분포라면, 이항분포를 정규분포화해서 단순화할 수 있다. B(n, p) 라면 m = np, S² = σ² = np(1-p)


  3) 표준정규분포
    - 정규분포의 표준분포
    - 평균(μ or m) = 0, 표준편차(σ) = 1 인 정규분포 Z

stat_nor = scipy.stats.norm(μ, σ)  #정규분포 확률변수
stat_nor.pmf(x축)  #확률질량함수 시각화
stat_nor.cdf(x축)  #누적분포함수 시각화
np.random.normal(μ, σ, n)  #정규분포 랜덤샘플



3. 모집단과 표본
  1) 의미: 통계에서 일반적으로 모집단은 너무 커서 검토할 수 없기때문에 일부인 표본을 추출해서 모집단의 정보(모수)를 추론함
    - 예시: 선거에서의 출구조사
  2) 용어
    - 모집단(Population): 조사의 관심이 되는 전체 집단
    - 표본(Sample): 모집단에서 일부를 표집(샘플링)하여 실제 조사한 대상
    - 모수(Parameter): 모집단의 특징을 나타내는 것, 미지의 수 (m, σ)
    - 통계량(Statics): 표본으로부터 계산된 모든 값, 모수를 추정


4. 통계적 추론
  - 표본이 갖고 있는 정보를 분석하여 모수를 추론. 모수에 대한 가설의 옳고 그름을 판단
  - 표본으로 전체 모집단의 성질을 추론하므로 오류 존재 (이 부정확도를 반드시 언급해야 함)
  - 조사자의 관심(목적)에 따라 모수추정 / 가설검정으로 구분
  1) 모수추정(Estimation): 모수에 대한 추론 혹은 추론치 제시, 수치화 된 정확도 제시
    - 점추정(Point Estimation): 추출된 표본으로부터의 모수의 값에 가까울 것이 예상되는 하나의 값 제시
    - 구간추정(Interval Estimation): 하나의 값 대신 모수를 포함할 것이 예상되는 적절한 구간을 제시
      ※ 신뢰구간: 모수가 실제로 포함될 것으로 예측되는 범위로 신뢰수준이 95%인 구간, 신뢰수준(=확률))
      ※ 신뢰구간과 신뢰수준은 서로 비슷한 용어이면서 공생하는 개념. 신뢰수준은 믿을 수 있는 정도를 의미하고 신뢰구간은 신뢰수준에 바탕을 둔 어떤 모수의 믿을 수 있는 구간을 의미
      ※ 신뢰수준을 95%, 99% 등 다르게 할 수 있으나, 통계로써의 가치를 잃을 수도 있다.

  2) 가설검정: 모집단의 특성이나 모수에 대한 가설이 적합한지 아닌지를 표본으로 판단하는 방법
    - 귀무가설(Null hypothesis): 기본적으로 인정받는 가설
    - 대립가설(Alternative hypothesis): 자료를 통해 입증하고자 하는 가설 (귀무가설의 오류를 입증하기 위한 가설) (양측가설, 단측가설)


5. 통계적 가설 검정
  - 설정한 가설에 대한 옳고 그름을 표본자료를 통해 검정. 두 가설 중 옳다고 판단할 수 있는 하나의 가설을 선택
  - 표본자료가 대립가설을 지지하면 대립가설 채택, 대립가설을 지지하지 못하면 귀무가설 채택
  - 귀무가설을 기준으로 한 표현을 사용한다. 대립가설을 채택하는 경우 "귀무가설을 기각한다."
  - 1종 오류(α): 귀무가설이 참일 때 귀무가설을 기각하는 경우 (오류내용 따라 현재를 엎고 신규 투자가 발생할 수 있어서 2종 오류(β)에 비해 치명적 오류에 해당함 (더 큰 손실이나 비용이 발생하는 경우가 많다.))
  -  2종 오류(β): 귀무가설이 거짓일 때 귀무가설을 채택하는 경우 (개선을 안할 뿐 평타는 침)
  - 가설검정은 표본자료만으로 모집단에 대한 가설을 검토하므로 오류 존재하고, 바람직한 가설검정은 두 오류를 최소화 하는 것
  - 두 오류를 동시에 최소화하는 검정은 존재하지 않거나 찾기 어렵다.
  - 1종 오류와 2종 오류를 범할 확률은 반비례 관계
  - 전통적인 통계학에서의 검정 → 1종 오류 확률 최소화 → 2종 오류 확률 최소화
  - 유의수준(Significance level, α): 1종 오류를 범할 확률에 대한 최대 허용한계 고정값으로 일반적으로 0.01 ~ 0.10 사이의 작은 값을 사용함


6. 검정의 종류와 과정
  1) 가설검정 과정
    ① 가설 설정
    ② 표본자료의 관측
    ③ 가설검정에 사용할 통계량 선택
    ④ 관측값 계산
    ⑤ 기각역/유의확률 계산
    ⑥ 검정결과 해석 및 가설 채택

  2) 검정통계량
    - 가설검정에 사용되는 통계량
    - 가설검정의 결과를 결정하는데 이용되는 표본의 함수
    - 표본평균을 관측하여 그 값으로부터 모집단평균에 대한 가설검정을 결정할 때 검정통계량 사용

  3) 검정을 위한 기준
    - 기각역: 귀무가설을 기각하는 구간으로 기각역의 올바른 선택(두 오류를 범할 확률을 최소화 하는 것)이 검정에서 가장 중요하다.
    - 유의확률(P-value): 표본자료가 대립가설을 지지하는 정도를 0과 1사이의 숫자로 나타낸 유의수준 값. 표준정규분포표를 이용해 P를 구함
      (유의수준>P: 귀무가설 기각, 유의수준<P: 귀무가설 채택)

  4) 가설검정의 종류
    - 이항검정: 이항분포를 이용해 베르누이 확률변수의 모수 p에 대한 가설 조사. 베르누이 값을 가지는 확률변수의 분포를 판단

      (양측검정: alternative = 'two-sided', 단측검정: alternative = 'one-sided')

scipy.stats.binom_test(x, n, p, alternative='')  #이항검정의 유의확률을 구하는 함수

 

   - 모평균 가설검정: 표본의 크기(n)가 클 때, 모평균 μ이 정규분포를 따른다는 가정하에 중심극한정리에 의해 정규분포에 근사함

def ztest(stat, mu, sigma):  #모평균 가설검정 함수. 유의확률 출력
	z = (stat.mean() - mu) / (sigma/np.sqrt(len(stat)))
	return (2 * (1-sp.stat.norm.cdf(z)))
       
#stat: 검정통계량
#mu: 모평균
#sigma: 모표준편차



728x90
반응형