1. 자료의 형태
1) 범주형 자료(=질적자료) > 로지스틱회귀분석
- 순위형 자료(학점), 명목형 자료(혈액형)
- 관측값의 크기보다 포함되는 범주에 관심
- 각 범주에 속하는 관측값의 개수 측정 > 전체에서 차지하는 각 범주의 비율 파악 > 효율적으로 범주 간의 차이점을 비교 가능
1-1) 도수분포표
- 도수(Frequency): 각 범주에 속하는 관측값의 개수 df[범주].value_counts()
- 상대도수(Relative Frequency): 도수의 자료를 전체 개수로 나눈 비율 df[범주].value_counts(normalize=True)
- 도수분포표(Frequency Table): 범주형 자료에서 범주와 그 범주에 대응하는 도수, 상대도수를 나열해 표로 만든 것
- 한가지 범주의 도수분포표: pd.crosstab(index=범주, columns="count")
- 두가지 범주의 도수분포표: pd.crosstab(index=범주, columns=또다른범주)
1-2) 범주형 자료의 요약: 그래프 (matplotlib.pyplot 라이브러리 활용 (import matplotlib.pyplot as plt))
① 원형그래프(Pie Chart): plt.pie(수치, labels = 라벨) plt.axis('equal')
- 장점: 전체에서 범주가 차지하는 비율을 파악하기 쉬움
- 단점: 범주 간 도수 비교 및 도수 크기 차이 파악 어려움
② 막대그래프(Bar Chart): plt.bar(x = 라벨, height = 수치)
- x축 범주, y축 도수에 대한 눈금
- 장점: 각 범주가 가지는 도수의 크기 차이를 비교하기 쉬움
- 단점: 각 범주가 차지하는 비율의 비교는 어려움
fig, ax = plt.subplots()
plt.bar(labels,ratio)
2) 수치형 자료(=양적자료) > 선형회귀분석
- 연속형 자료(키), 이산형 자료(조회수)
2-1) 이산형 자료의 요약 (관측된 수치 자료가 셀 수 있는 경우)
- 관측값의 종류/수가 많으면 범주형 자료 요약 기법
- 관측값의 종류/수가 적으면 연속형 자료 요약 기법
2-2) 연속형 자료의 요약 (수치 자료가 연속적으로 관측)
- 관측값의 종류/수가 많으면 연속형 자료 요약 기법
- 관측값의 종류/수가 적으면 점도표, 도수분포표, 히스토그램, 상대도수다각형, 줄기-잎그림
2-3) 점도표(dot diagram): 관측값의 개수가 상대적으로 적은 경우 (20~25이하)
- 자료 전체의 개요를 파악 가능
- 모든 자료를 나타낼 수 있도록 줄위에 각 관측값에 해당되는 점을 찍어서 표시
- 연속형 자료의 경우 중복된 정보를 판단하기 어려움. 자료를 크기에 따라 묶어서 분석하는 것이 효율적
2-4) 도수분포표(Frequency Table)
- 각 관측값에 대한 도수를 측정하여 도수분포표 작성
- 연속형 자료의 경우 다수의 구간(계급)으로 나누고 각 구간마다 관측값의 개수(도수)로 작성
- 작성순서
ㄱ. 자료의 범위: 자료에서 최대값과 최소값을 찾아 자료의 범위를 구함
ㄴ. 계급의 폭: 계급의 개수를 분포의 경향이 잘 드러날 수 있도록 정함 (보통 √N±3)
ㄷ. 계급구간: 모든 관측 값을 포함하도록 계급구간의 경계점을 구함
ㄹ. 도수: 각 계급구간에 속하는 관측값의 개수를 세어 계급의 도수를 더함
ㅁ. 상대도수: 각 계급의 도수를 전체 관측값의 개수로 나눠 계급의 상대도수를 구함
2-5) 수치형 자료의 요약: 그래프
① 히스토그램 (Histogram): plt.hist()
- 연속형 자료의 도수분포표를 기반으로 각 계급을 범주처럼 사용, 범주형 자료의 막대그래프와 같은 방식으로 그림
- 자료의 분포를 알 수 있음. 계급 구간과 막대의 높이로 그림. 모든 계급구간의 폭이같으면 도수, 상대도수를 막대 높이로 사용 (x축: 계급, y축: 빈도)
② 줄기-잎 그림 (Stem-leaf): plt.stem(줄기, 관측값)
- 자료의 분포를 시각적으로 쉽게 파악, 각 관측값 유지
- 장점: 관측값을 보여주므로 최대값, 최소값 파악 쉬움. 순서대로 배열된 관측값의 장점과 히스토그램 장점을 모두 가짐. 그리기 쉬움.
- 단점: 관측값의 개수가 많은 경우 제한된 공간에 그리기 불가능. 관측값이 지나치게 흩어진 경우 부적절.
'공부 > 확률통계' 카테고리의 다른 글
비전공자 ADsP 자격증 합격 취득 후기 (0) | 2023.06.15 |
---|---|
[프로그래밍 확률 통계] 03 확률 (0) | 2023.05.25 |
[프로그래밍 확률 통계] 02 논리적인 자료의 요약 (0) | 2023.05.22 |