2018-12-12

naivebayes

패스트캠퍼스 데이터사이언스 스쿨 강의노트를 참고했습니다

확률적 모형

나이브 베이즈 분류 모형은 “확률적(probabilistic)”, “생성(generative)” 모형 중 하나이다.
확률적 생성 모형은, 주어진 데이터에 대해 각 카테고리(혹은 클래스)가 정답일 조건부 확률을 계산하기 때문에 확률적 모형에 속한다.
확률적 모형은 독립변수 $x$가 주어졌을 때, 종속변수 $y$가 될 확률 $P(y = k \mid x)$를 모두 계산하고(1), 다음으로 가장 확률이 큰 클래스를 선택한다.(2)

$$
\text{(1) }
\begin{eqnarray}
P_1 &=& P(y = 1 \mid x) \
\vdots & & \vdots \
P_K &=& P(y = K \mid x)
\end{eqnarray}
$$

$$
\text{(2) }
y = \arg\max_{k} P(y=k \mid x)
$$

확률적 모형은 생성모형(generative model)과 판별모형(discriminative model)로 나뉜다.

확률적 생성모형

생성모형은 각 클래스(종속변수) 별 특징 데이터(독립변수)의 확률분포 $P(x \mid y = k)$를 추정한 다음, 베이즈 정리를 사용하여 조건부확률 $P(y = k | x)$를 계산하는 방법이다.

$$ P(y = k \mid x) = \dfrac{P(x \mid y = k) P(y = k)}{P(x)}$$

생성모형은 전체 확률의 법칙을 이용하여 특정 데이터(독립변수) $x$ 의 무조건부 확률분포 $P(x)$ 를 구할 수 있다.
$$ P(x) = \sum_{k=1}^K P(x \mid y) P(y = k)$$
새로운 가상의 특징 데이터를 생성해내거나, 특징 데이터만으로도 아웃라이어를 판단할 수 있다는 장점이 있다. 반면, 클래스가 많을 경우 불필요한 확률 분포를 계산한다는 단점이 있다.
확률적 생성모형으로는 QDA, LDA, 나이브 베이즈 알고리즘을 예로 들 수 있다.

나이브 베이즈 분류 모형

나이브 베이즈 분류 모형은 나이브 가정을 베이즈 분류에 적용한 모형이다.
나이브 가정은 독립변수 x가 다차원인 경우, 모든 차원의 개별 독립 변소 요소(component)가 서로 조건부 독립(conditional independent)이라는 가정이다.
나이브 가정을 베이즈 분류에 적용하는 이유는, 텍스트 데이터처럼 독립변수가 차원이 높으면, 다차원 결합확률을 실제로 구하기 어렵기 때문이다. 이때, 나이브 가정을 적용하면, 단순히 곱하기만 해도 다차원 결합확률을 쉽게 구할 수 있다.
나이브 베이즈 분류 모형은 $x$ 벡터의 결합 확률을 개별 원소 $x_d$확률의 곱으로 표현한다.

$$P(x_1, \ldots, x_D \mid y = k) = \prod_{d=1}^D P(x_d \mid y = k)$$

$$P(y = k \mid x) \;\; \propto \;\; \prod_{d=1}^D P(x_d \mid y = k)$$

부록: 베이즈 정리

베이즈정리는 조건부 확률을 구하는 다음 공식을 뜻한다.

$$ P(A \mid B) = \dfrac{P(B \mid A)P(A)}{P(B)}$$

- $P(A \mid B)$ : 사후확률. 사건 B가 발생한 후 갱신된 사건 A의 확률
- $P(A)$ : 사전확률. 사건 B가 발생하기 전 사건 A의 확률
- $P(B \mid A)$ : 가능도. 사건 A가 발생한 경우, 사건 B의 확률
- $P(B)$ : 정규화 상수. 확률의 크기 조정

부록: 전체확률의 법칙

전체확률의 법칙은, 모든 사건 $A$에 대해 사건 $A$의 확률은 사건 $A$와 사건 $Ci$가 동시에 발생할 사건들의 확률의 합과 같다.

$$P(A) = \sum_i P(A \cap C_i)$$

모형 선택 : 가우시안 정규 분포, 베르누이 분포, 다항 분포

가우시안 정규 분포 가능도 모형
- 가우시안 정규 분포 가능도 모형은 $x$ 벡터의 원소가 모두 실수이고, 클래스마다 특정 값 주변에서 발생하면 사용한다.
- 각 독립변수 $x_d$ 마다, 그리고 클래스 $k$ 마다 정규 분포의 기댓값 $\mu_{d,k}$, 표준편차 $\sigma^2_{d,k}$ 가 달라진다.
- QDA 모형과 달리 모든 독립변수들이 서로 조건부 독립이라 가정한다.
  
  $$P(x_d \mid y = k) = \dfrac{1}{\sqrt{2\pi\sigma_{d,k}^2}} \exp \left(-\dfrac{(x_d-\mu_{d,k})^2}{2\sigma_{d,k}^2}\right)$$
베르누이 분포 가능도 모형
- 베르누이 분포 가능도 모형은 각각의 $x_1, \ldots, x_D$의 원소 $x_d$가 0 또는 1이라는 값만 가질 수 있다.
- 각 값의 모수 $\mu_d$는 원소 $x_d$, 클래스 $y_k$ 마다 다르다.
- 정리하면, 베르누이 분포 가능도 모형 기반 나이브 베이즈 분류 모형은 동전 세트를 $N$ 번 던진 결과로부터 $1, \ldots, K$ 중 어떤 동전 세트를 던졌는지 찾아내는 모형이라 할 수 있다.

$$P(x_d \mid y = k) = \mu_{d,k}^{x_d} (1-\mu_{d,k})^{(1-x_d)}$$

$$P(x_1, \ldots, x_D \mid y = k)= \prod_{d=1}^D \mu_{d,k}^{x_d} (1-\mu_{d,k})^{(1-x_d)}$$

다항 분포 가능도 모형
- 다항 분포 모형은 독립변수 $x$ 벡터가 다항 확률 분포의 샘플이라 가정한다. 즉, $D$ 개의 면을 가지는 주사위를 $\sum_{d=1}^D x_d$ 번 던져서 나온 결과로 보는 셈.

$$P(x_1, \ldots, x_D \mid y = k)
\;\; \propto \;\; \prod_{d=1}^D \mu_{d,k}^{x_{d,k}}$$