Home [BoostCamp AI Tech / Level 1 - AI Math] Day4 - 통계학 맛보기
Post
Cancel

[BoostCamp AI Tech / Level 1 - AI Math] Day4 - 통계학 맛보기

AI Math : 통계학 맛보기


모수

  • 통계적 모델링이란 가정을 통해 확률분포를 추정하는 것이 목표이다.
  • 하지만 유한한 data로 모집단의 분포를 알아내는 것은 어렵기 때문에 “근사적”추정을 하는데 이때 방법으로는 2가지 방법이 있다.
    • parametric : 선험적으로 분포를 가정하고 모수를 추정한다.
    • non-parametric : 모델구조 + 모수개수를 활용

1. Parametric

  1. 확률분포가정
    • 데이터가 2개의 case만 존재 : 베르누이 분포 (Bernoulli)
    • n개의 이산 데이터 : 카테고리 분포 (categorical)
    • [0, 1]사이의 값 : 베타분포 (Beta(α,β))
    • 0 이상의 값 : 감마분포 (Gamma), 로그정규분포
    • R 전체의 값 : 정규분포, 라플라스 분포
  2. 모수추정

    X¯=1Ni=1Nxi,E[X¯]=μs2=1N1i=1N(XiX¯)2,E[S2]=σ2
    • 표집분포 (Sampling distribution)
      • 통계량들이 존재하는 확률분포이다.
      • sample distribution이랑은 다르다! 주의!!
      • 표집분포는 N이 클수록 정규분포에 근사한다.

최대가능도추정법 (Maximum Likelihood Estimator, MLE)

θ^MLE=argmaxθL(θ;x)=argmaxP(x|θ)L(θ;x)=i=1nP(xi|θ)logL(θ;x)=logP(xi|θ)
  • 이론적으로 가장 가능성이 높은 모수를 추정
  • Likelihood에 로그를 연산한 log likelihood를 일반적으로 많이 활용
    • 데이터 규모가 커질경우 계산이 어려워짐
    • 곱셈보다 덧셈이 오차율이 더 적음.

딥러닝의 MLE

  • 가중치 θ=(W(1),,W(L))
  • 분류문제에서 softmax는 categorical distribution의 모수를 모델링함
    • 원핫 벡터형태의 정답 레이블 y=(y1,,yk) 를 관찰 data로 활용하면 softmax MLE계산
    θ^MLE=argmaxθ1ni=1nk=1Kyi,klog(MLPθ(xi)k)

확률분포의 거리

  • 기계학습의 손실함수들은 model의 학습확률분포데이터의 관찰 확률분포의 거리로 유도한다.
  • 거리 계산 함수
    • 총 변동거리
    • 쿨백-라이블러 발산
    • 바슈타인 거리

1. 쿨백-라이블러 발산 (KL Divergence)

KL(P||Q)=xχP(x)log(P(x)Q(x)),(discrete)KL(P||Q)=xP(x)log(P(x)Q(x)),(continuos)

쿨백-라이블러 발산을 분해할 수 있는데, 이를 분해하면 다음과 같다.

KL(P||Q)=ExP(x)[logQ(x)]+ExP(x)[logQ(x)]cross entropyentropy

여기서 정답레이블을 P, 모델의 예측을 Q라 두면 MLE는 쿨백-라이블러 발산을 최소화하는 것과 같음

This post is licensed under CC BY 4.0 by the author.

[BoostCamp AI Tech / Level 1 - AI Math] Day4 - 확률론 맛보기

[BoostCamp AI Tech / Level 1 - AI Math] Day4 - 베이즈 통계학 맛보기

Comments powered by Disqus.