AI Math : 통계학 맛보기
모수
- 통계적 모델링이란 가정을 통해 확률분포를 추정하는 것이 목표이다.
- 하지만 유한한 data로 모집단의 분포를 알아내는 것은 어렵기 때문에 “근사적”추정을 하는데 이때 방법으로는 2가지 방법이 있다.
- parametric : 선험적으로 분포를 가정하고 모수를 추정한다.
- non-parametric : 모델구조 + 모수개수를 활용
1. Parametric
- 확률분포가정
- 데이터가 2개의 case만 존재 : 베르누이 분포 (
) - n개의 이산 데이터 : 카테고리 분포 (categorical)
- [0, 1]사이의 값 : 베타분포 (
) - 0 이상의 값 : 감마분포 (
), 로그정규분포 전체의 값 : 정규분포, 라플라스 분포
- 데이터가 2개의 case만 존재 : 베르누이 분포 (
모수추정
- 표집분포 (Sampling distribution)
- 통계량들이 존재하는 확률분포이다.
- sample distribution이랑은 다르다! 주의!!
- 표집분포는 N이 클수록 정규분포에 근사한다.
- 표집분포 (Sampling distribution)
최대가능도추정법 (Maximum Likelihood Estimator, MLE)
- 이론적으로 가장 가능성이 높은 모수를 추정
- Likelihood에 로그를 연산한 log likelihood를 일반적으로 많이 활용
- 데이터 규모가 커질경우 계산이 어려워짐
- 곱셈보다 덧셈이 오차율이 더 적음.
딥러닝의 MLE
- 가중치
- 분류문제에서 softmax는 categorical distribution의 모수를 모델링함
- 원핫 벡터형태의 정답 레이블
를 관찰 data로 활용하면 softmax MLE계산
- 원핫 벡터형태의 정답 레이블
확률분포의 거리
- 기계학습의 손실함수들은 model의 학습확률분포와 데이터의 관찰 확률분포의 거리로 유도한다.
- 거리 계산 함수
- 총 변동거리
- 쿨백-라이블러 발산
- 바슈타인 거리
1. 쿨백-라이블러 발산 (KL Divergence)
쿨백-라이블러 발산을 분해할 수 있는데, 이를 분해하면 다음과 같다.
여기서 정답레이블을
Comments powered by Disqus.