패스트캠퍼스 데이터사이언스 스쿨 강의노트를 참고했습니다
확률적 모형
- 나이브 베이즈 분류 모형은 “확률적(probabilistic)”, “생성(generative)” 모형 중 하나이다.
- 확률적 생성 모형은, 주어진 데이터에 대해 각 카테고리(혹은 클래스)가 정답일 조건부 확률을 계산하기 때문에 확률적 모형에 속한다.
- 확률적 모형은 독립변수 $x$가 주어졌을 때, 종속변수 $y$가 될 확률 $P(y = k \mid x)$를 모두 계산하고(1), 다음으로 가장 확률이 큰 클래스를 선택한다.(2)
$$
\text{(1) }
\begin{eqnarray}
P_1 &=& P(y = 1 \mid x) \
\vdots & & \vdots \
P_K &=& P(y = K \mid x)
\end{eqnarray}
$$
$$
\text{(2) }
y = \arg\max_{k} P(y=k \mid x)
$$
- 확률적 모형은 생성모형(generative model)과 판별모형(discriminative model)로 나뉜다.
확률적 생성모형
- 생성모형은 각 클래스(종속변수) 별 특징 데이터(독립변수)의 확률분포 $P(x \mid y = k)$를 추정한 다음, 베이즈 정리를 사용하여 조건부확률 $P(y = k | x)$를 계산하는 방법이다.
$$ P(y = k \mid x) = \dfrac{P(x \mid y = k) P(y = k)}{P(x)}$$
생성모형은 전체 확률의 법칙을 이용하여 특정 데이터(독립변수) $x$ 의 무조건부 확률분포 $P(x)$ 를 구할 수 있다.
$$ P(x) = \sum_{k=1}^K P(x \mid y) P(y = k)$$새로운 가상의 특징 데이터를 생성해내거나, 특징 데이터만으로도 아웃라이어를 판단할 수 있다는 장점이 있다. 반면, 클래스가 많을 경우 불필요한 확률 분포를 계산한다는 단점이 있다.
확률적 생성모형으로는 QDA, LDA, 나이브 베이즈 알고리즘을 예로 들 수 있다.
나이브 베이즈 분류 모형
- 나이브 베이즈 분류 모형은 나이브 가정을 베이즈 분류에 적용한 모형이다.
- 나이브 가정은 독립변수 x가 다차원인 경우, 모든 차원의 개별 독립 변소 요소(component)가 서로 조건부 독립(conditional independent)이라는 가정이다.
- 나이브 가정을 베이즈 분류에 적용하는 이유는, 텍스트 데이터처럼 독립변수가 차원이 높으면, 다차원 결합확률을 실제로 구하기 어렵기 때문이다. 이때, 나이브 가정을 적용하면, 단순히 곱하기만 해도 다차원 결합확률을 쉽게 구할 수 있다.
- 나이브 베이즈 분류 모형은 $x$ 벡터의 결합 확률을 개별 원소 $x_d$확률의 곱으로 표현한다.
$$P(x_1, \ldots, x_D \mid y = k) = \prod_{d=1}^D P(x_d \mid y = k)$$
$$P(y = k \mid x) \;\; \propto \;\; \prod_{d=1}^D P(x_d \mid y = k)$$
부록: 베이즈 정리
- 베이즈정리는 조건부 확률을 구하는 다음 공식을 뜻한다.
$$ P(A \mid B) = \dfrac{P(B \mid A)P(A)}{P(B)}$$
- $P(A \mid B)$ : 사후확률. 사건 B가 발생한 후 갱신된 사건 A의 확률
- $P(A)$ : 사전확률. 사건 B가 발생하기 전 사건 A의 확률
- $P(B \mid A)$ : 가능도. 사건 A가 발생한 경우, 사건 B의 확률
- $P(B)$ : 정규화 상수. 확률의 크기 조정
부록: 전체확률의 법칙
- 전체확률의 법칙은, 모든 사건 $A$에 대해 사건 $A$의 확률은 사건 $A$와 사건 $Ci$가 동시에 발생할 사건들의 확률의 합과 같다.
$$P(A) = \sum_i P(A \cap C_i)$$
모형 선택 : 가우시안 정규 분포, 베르누이 분포, 다항 분포
가우시안 정규 분포 가능도 모형
- 가우시안 정규 분포 가능도 모형은 $x$ 벡터의 원소가 모두 실수이고, 클래스마다 특정 값 주변에서 발생하면 사용한다.
- 각 독립변수 $x_d$ 마다, 그리고 클래스 $k$ 마다 정규 분포의 기댓값 $\mu_{d,k}$, 표준편차 $\sigma^2_{d,k}$ 가 달라진다.
QDA 모형과 달리 모든 독립변수들이 서로 조건부 독립이라 가정한다.
$$P(x_d \mid y = k) = \dfrac{1}{\sqrt{2\pi\sigma_{d,k}^2}} \exp \left(-\dfrac{(x_d-\mu_{d,k})^2}{2\sigma_{d,k}^2}\right)$$
베르누이 분포 가능도 모형
- 베르누이 분포 가능도 모형은 각각의 $x_1, \ldots, x_D$의 원소 $x_d$가 0 또는 1이라는 값만 가질 수 있다.
- 각 값의 모수 $\mu_d$는 원소 $x_d$, 클래스 $y_k$ 마다 다르다.
- 정리하면, 베르누이 분포 가능도 모형 기반 나이브 베이즈 분류 모형은 동전 세트를 $N$ 번 던진 결과로부터 $1, \ldots, K$ 중 어떤 동전 세트를 던졌는지 찾아내는 모형이라 할 수 있다.
$$P(x_d \mid y = k) = \mu_{d,k}^{x_d} (1-\mu_{d,k})^{(1-x_d)}$$
$$P(x_1, \ldots, x_D \mid y = k)= \prod_{d=1}^D \mu_{d,k}^{x_d} (1-\mu_{d,k})^{(1-x_d)}$$
- 다항 분포 가능도 모형
- 다항 분포 모형은 독립변수 $x$ 벡터가 다항 확률 분포의 샘플이라 가정한다. 즉, $D$ 개의 면을 가지는 주사위를 $\sum_{d=1}^D x_d$ 번 던져서 나온 결과로 보는 셈.
$$P(x_1, \ldots, x_D \mid y = k)
\;\; \propto \;\; \prod_{d=1}^D \mu_{d,k}^{x_{d,k}}$$