해야겠지?

공부/확률통계

[프로그래밍 확률 통계] 01 시각화를 통한 자료의 요약

jinyong 2023. 5. 21. 18:57
728x90
반응형

1. 자료의 형태

 

  1) 범주형 자료(=질적자료) > 로지스틱회귀분석
    - 순위형 자료(학점), 명목형 자료(혈액형)
    - 관측값의 크기보다 포함되는 범주에 관심
    - 각 범주에 속하는 관측값의 개수 측정 > 전체에서 차지하는 각 범주의 비율 파악 > 효율적으로 범주 간의 차이점을 비교 가능


  1-1) 도수분포표
    - 도수(Frequency): 각 범주에 속하는 관측값의 개수 df[범주].value_counts()
    - 상대도수(Relative Frequency): 도수의 자료를 전체 개수로 나눈 비율 df[범주].value_counts(normalize=True)
    - 도수분포표(Frequency Table): 범주형 자료에서 범주와 그 범주에 대응하는 도수, 상대도수를 나열해 표로 만든 것
    - 한가지 범주의 도수분포표: pd.crosstab(index=범주, columns="count")
    - 두가지 범주의 도수분포표: pd.crosstab(index=범주, columns=또다른범주)


  1-2) 범주형 자료의 요약: 그래프 (matplotlib.pyplot 라이브러리 활용 (import matplotlib.pyplot as plt))
    ① 원형그래프(Pie Chart): plt.pie(수치, labels = 라벨) plt.axis('equal')
      - 장점: 전체에서 범주가 차지하는 비율을 파악하기 쉬움
      - 단점: 범주 간 도수 비교 및 도수 크기 차이 파악 어려움
    ② 막대그래프(Bar Chart): plt.bar(x = 라벨, height = 수치)
      - x축 범주, y축 도수에 대한 눈금
      - 장점: 각 범주가 가지는 도수의 크기 차이를 비교하기 쉬움
      - 단점: 각 범주가 차지하는 비율의 비교는 어려움

fig, ax = plt.subplots()
plt.bar(labels,ratio)


  2) 수치형 자료(=양적자료) > 선형회귀분석
    - 연속형 자료(키), 이산형 자료(조회수)


  2-1) 이산형 자료의 요약 (관측된 수치 자료가 셀 수 있는 경우)
    - 관측값의 종류/수가 많으면 범주형 자료 요약 기법
    - 관측값의 종류/수가 적으면 연속형 자료 요약 기법


  2-2) 연속형 자료의 요약 (수치 자료가 연속적으로 관측)
    - 관측값의 종류/수가 많으면 연속형 자료 요약 기법
    - 관측값의 종류/수가 적으면 점도표, 도수분포표, 히스토그램, 상대도수다각형, 줄기-잎그림


  2-3) 점도표(dot diagram): 관측값의 개수가 상대적으로 적은 경우 (20~25이하)
    - 자료 전체의 개요를 파악 가능
    - 모든 자료를 나타낼 수 있도록 줄위에 각 관측값에 해당되는 점을 찍어서 표시
    - 연속형 자료의 경우 중복된 정보를 판단하기 어려움. 자료를 크기에 따라 묶어서 분석하는 것이 효율적


  2-4) 도수분포표(Frequency Table)
    - 각 관측값에 대한 도수를 측정하여 도수분포표 작성
    - 연속형 자료의 경우 다수의 구간(계급)으로 나누고 각 구간마다 관측값의 개수(도수)로 작성
    - 작성순서
     ㄱ. 자료의 범위: 자료에서 최대값과 최소값을 찾아 자료의 범위를 구함
     ㄴ. 계급의 폭: 계급의 개수를 분포의 경향이 잘 드러날 수 있도록 정함 (보통 √N±3)
     ㄷ. 계급구간: 모든 관측 값을 포함하도록 계급구간의 경계점을 구함
     ㄹ. 도수: 각 계급구간에 속하는 관측값의 개수를 세어 계급의 도수를 더함
     ㅁ. 상대도수: 각 계급의 도수를 전체 관측값의 개수로 나눠 계급의 상대도수를 구함


  2-5) 수치형 자료의 요약: 그래프
    ① 히스토그램 (Histogram): plt.hist()
      - 연속형 자료의 도수분포표를 기반으로 각 계급을 범주처럼 사용, 범주형 자료의 막대그래프와 같은 방식으로 그림
      - 자료의 분포를 알 수 있음. 계급 구간과 막대의 높이로 그림. 모든 계급구간의 폭이같으면 도수, 상대도수를 막대 높이로 사용 (x축: 계급, y축: 빈도)
    ② 줄기-잎 그림 (Stem-leaf): plt.stem(줄기, 관측값)
      - 자료의 분포를 시각적으로 쉽게 파악, 각 관측값 유지
      - 장점: 관측값을 보여주므로 최대값, 최소값 파악 쉬움. 순서대로 배열된 관측값의 장점과 히스토그램 장점을 모두 가짐. 그리기 쉬움.
      - 단점: 관측값의 개수가 많은 경우 제한된 공간에 그리기 불가능. 관측값이 지나치게 흩어진 경우 부적절.

728x90
반응형