본문 바로가기

공부/인공지능 기초

머신러닝을 공부하면서 알아야할 통계 이론

1. 기술 통계 (Descriptive Statistics)

  • 평균 (Mean), 중앙값 (Median), 최빈값 (Mode): 데이터의 중심 경향
  • 분산 (Variance), 표준편차 (Standard Deviation): 데이터가 평균을 중심으로 얼마나 퍼져 있는지
  • 사분위수 (Quartiles), IQR (Interquartile Range): 데이터의 분포와 범위
  • 왜도 (Skewness), 첨도 (Kurtosis): 데이터의 비대칭성과 꼬리의 두께

2. 확률 이론 (Probability Theory)

  • 확률 분포 (Probability Distributions): 데이터의 패턴을 모델링
    • 정규 분포 (Normal Distribution), 이항 분포 (Binomial Distribution), 포아송 분포 (Poisson Distribution)
  • 확률 밀도 함수 (Probability Density Function, PDF)누적 분포 함수 (Cumulative Distribution Function, CDF): 분포의 특성과 가능성
  • 조건부 확률 (Conditional Probability)베이즈 정리 (Bayes' Theorem): 데이터 간의 의존성을 모델링하고 해석

3. 추론 통계 (Inferential Statistics)

  • 가설 검정 (Hypothesis Testing): 데이터를 바탕으로 가설 검증.
    • t-검정 (t-test), 카이제곱 검정 (Chi-square test), ANOVA
  • 신뢰 구간 (Confidence Intervals): 모집단의 파라미터를 추정
  • p-값 (p-value): 관찰된 결과가 귀무 가설 아래에서 발생할 확률, 가설을 기각할지를 결정하는 데 사용

4. 상관관계와 회귀 분석 (Correlation and Regression Analysis)

  • 상관계수 (Correlation Coefficient): 두 변수 간의 관계의 강도와 방향을 측정
  • 회귀 분석 (Regression Analysis): 변수 간의 관계 모델링
    • 선형 회귀 (Linear Regression), 로지스틱 회귀 (Logistic Regression), 다변량 회귀 (Multivariate Regression) 
  • 과적합 (Overfitting)과 과소적합 (Underfitting): 모델이 데이터에 대해 너무 복잡하거나 너무 단순한 경우 발생

5. 확률적 데이터 분석 방법 (Probabilistic Data Analysis Methods)

  • 최대 우도 추정 (Maximum Likelihood Estimation, MLE): 모델 파라미터를 추정하는 방법, 주어진 데이터가 가장 잘 설명되는 파라미터 탐색
  • 최대 사후 확률 추정 (Maximum A Posteriori Estimation, MAP): 베이즈 정리를 이용, 사전 분포와 데이터를 결합하여 파라미터 추정

6. 차원 축소 기법 (Dimensionality Reduction Techniques)

  • 주성분 분석 (Principal Component Analysis, PCA): 고차원의 데이터를 저차원으로 변환해 데이터의 패턴을 이해,시각화
  • 선형 판별 분석 (Linear Discriminant Analysis, LDA): 분류 문제에서의 차원 축소 기법, 클래스 간의 분산을 최대화하면서 클래스 내의 분산을 최소화

7. 시간 시계열 분석 (Time Series Analysis)

  • 자기회귀 모델 (Autoregressive Model, AR), 이동 평균 모델 (Moving Average Model, MA), ARIMA 모델: 시계열 데이터를 분석하고 미래의 값 예측
  • 추세 (Trend), 계절성 (Seasonality), 자기상관 (Autocorrelation): 시계열 데이터의 패턴 이해하