공부/인공지능 기초
머신러닝을 공부하면서 알아야할 통계 이론
비랑이
2024. 9. 8. 15:16
1. 기술 통계 (Descriptive Statistics)
- 평균 (Mean), 중앙값 (Median), 최빈값 (Mode): 데이터의 중심 경향
- 분산 (Variance), 표준편차 (Standard Deviation): 데이터가 평균을 중심으로 얼마나 퍼져 있는지
- 사분위수 (Quartiles), IQR (Interquartile Range): 데이터의 분포와 범위
- 왜도 (Skewness), 첨도 (Kurtosis): 데이터의 비대칭성과 꼬리의 두께
2. 확률 이론 (Probability Theory)
- 확률 분포 (Probability Distributions): 데이터의 패턴을 모델링
- 정규 분포 (Normal Distribution), 이항 분포 (Binomial Distribution), 포아송 분포 (Poisson Distribution) 등
- 확률 밀도 함수 (Probability Density Function, PDF)와 누적 분포 함수 (Cumulative Distribution Function, CDF): 분포의 특성과 가능성
- 조건부 확률 (Conditional Probability) 및 베이즈 정리 (Bayes' Theorem): 데이터 간의 의존성을 모델링하고 해석
3. 추론 통계 (Inferential Statistics)
- 가설 검정 (Hypothesis Testing): 데이터를 바탕으로 가설 검증.
- t-검정 (t-test), 카이제곱 검정 (Chi-square test), ANOVA 등
- 신뢰 구간 (Confidence Intervals): 모집단의 파라미터를 추정
- p-값 (p-value): 관찰된 결과가 귀무 가설 아래에서 발생할 확률, 가설을 기각할지를 결정하는 데 사용
4. 상관관계와 회귀 분석 (Correlation and Regression Analysis)
- 상관계수 (Correlation Coefficient): 두 변수 간의 관계의 강도와 방향을 측정
- 회귀 분석 (Regression Analysis): 변수 간의 관계 모델링
- 선형 회귀 (Linear Regression), 로지스틱 회귀 (Logistic Regression), 다변량 회귀 (Multivariate Regression)
- 과적합 (Overfitting)과 과소적합 (Underfitting): 모델이 데이터에 대해 너무 복잡하거나 너무 단순한 경우 발생
5. 확률적 데이터 분석 방법 (Probabilistic Data Analysis Methods)
- 최대 우도 추정 (Maximum Likelihood Estimation, MLE): 모델 파라미터를 추정하는 방법, 주어진 데이터가 가장 잘 설명되는 파라미터 탐색
- 최대 사후 확률 추정 (Maximum A Posteriori Estimation, MAP): 베이즈 정리를 이용, 사전 분포와 데이터를 결합하여 파라미터 추정
6. 차원 축소 기법 (Dimensionality Reduction Techniques)
- 주성분 분석 (Principal Component Analysis, PCA): 고차원의 데이터를 저차원으로 변환해 데이터의 패턴을 이해,시각화
- 선형 판별 분석 (Linear Discriminant Analysis, LDA): 분류 문제에서의 차원 축소 기법, 클래스 간의 분산을 최대화하면서 클래스 내의 분산을 최소화
7. 시간 시계열 분석 (Time Series Analysis)
- 자기회귀 모델 (Autoregressive Model, AR), 이동 평균 모델 (Moving Average Model, MA), ARIMA 모델: 시계열 데이터를 분석하고 미래의 값 예측
- 추세 (Trend), 계절성 (Seasonality), 자기상관 (Autocorrelation): 시계열 데이터의 패턴 이해하
'공부/인공지능 기초' Related Articles