qdalda

QDA, LDA

  1. QDA와 LDA도 확률론적 생성 모형입니다.
  2. 가능도, 다시 말해 y 클래스 값에 따른 x 분포를 알아낸 후, 베이즈 정리를 활용하여 주어진 x에 대한 y의 분포를 찾아내지요.

생성 모형

  1. 생성 모형은 베이즈 정리를 활용하여 조건부 확률 $p(y = k \mid x)$ , 다시 말해 특정 독립변수를 넣었을 때(input), 어떤 종속변수를 결과로 내놓는지(어떤 클래스에 속하는지 - output)을 계산합니다.
    $$ P(y = k \mid x) = \dfrac{P(x \mid y = k)\; P(y = k)}{P(x)} $$

  2. 가능도 - y에 대한 x의 조건부 확률 - 는 어떻게 계산할까요.

  • 먼저 $P(x \mid y = k)$ 가 특정한 확률분포 모형을 따른다고 가정합니다. 즉, 확률밀도함수의 형태를 가정하는 셈이지요.
  • $k$ 번째 클래스에 속한 학습 데이터 {$x_1, \ldots, x_N$}을 이용하여 각 클래스 별 확률분포 모형의 모수를 구합니다.(추정합니다)
  • 모수를 구한다는 것은, 확률분포와 확률밀도함수를 구했다는 것을 의미합니다. 그리고 확률밀도함수를 구하면, 새로운 독립변수 x를 받았을 때 그 결과 - $P(x \mid y = k)$ 를 계산할 수 있습니다.

QDA

  • QDA는 독립변수 $x$가 실수이고, 그 확률변수가 다변수 가우시안 정규분포라고 가정합니다.
  • 단 분포는 클래스에 따라 형태(평균, 분산)가 다를 수 있습니다. $$p(x \mid y = k) = \dfrac{1}{(2\pi)^{D/2} |\Sigma_k|^{1/2}} \exp \left( -\dfrac{1}{2} (x-\mu_k)^T \Sigma_k^{-1} (x-\mu_k) \right)$$

  • 클래스 별 분포를 알고 있으면, 독립변수 $x$ 에 대한 클래스 $y$ 의 조건부 확률 분포를, 베이즈 정리와 전체확률의 법칙으로 구할 수 있습니다.(아래) $$P(y=k \mid x) = \dfrac{p(x \mid y = k)P(y=k)}{p(x)} = \dfrac{p(x \mid y = k)P(y=k)}{\sum_l p(x \mid y = l)P(y=l) }$$

LDA

  • LDA는 클래스 $y$에 대한 독립변수 $x$의 조건부 확률 분포가 공통된 공분산 행렬을 가지는 다변수 가우시안 정규분포라고 가정합니다. 다시 말해, 모든 k에 대해(어떤 클래스든) 같은 공분산을 갖는다고 생각하는 것이지요. $$\Sigma_k = \Sigma \;\; \text{for all} \;\; k$$
  • 이는 모든 클래스 $x$ 에 대해, 클래스 $k_1$, $k_2$ 의 경계선이 같은 다시 말해 확률값이 같아지는 $x$ 위치를 찾으면, 경계선 함수가 $x$ 에 대한 선형 방정식이 되어 경계선의 모양이 직선이 됩니다.

부록: 확률변수의 독립과 상관

  • 상관관계 : 두 확률변수 $f_x(x), f_y(y)$가 있을 때, 한 확률변수의 표본 값 $x$ 이 달라지면 다른 확률변수의 조건부 분포 $f_y(y)$ 가 달라질 때, 서로 상관관계가 있다라고 합니다.
  • 독립 : 반면, 서로 상관관계가 없으면 독립이라고 합니다.

부록: 공분산과 상관계수

  1. 공분산
  • 공분산, 상관계수는 다변수 확률변수의 상관 관계를 숫자로 나타낸 것입니다.
  • 표본공분산(sample covariance)은 표본분산처럼 데이터가 평균값에서 얼마나 떨어져 있는지 나타낸 것으로, 공분산 - 평균값 위치와 표본 위치를 연결한 사각형의 면적 - 의 평균입니다.
  • 수식은 아래처럼 정의할 수 있으며, $x_i$ 와 $y_i$ 는 각 $i$ 번째 $x$ 자료와 $y$ 자료의 값을, $\bar{x}$ 와 $\bar{y}$ 는 $x$, $y$ 자료의 표본 평균을 나타냅니다. $$s_{xy} = \dfrac{1}{N}\sum_{i=1}^{N} (x_i-\bar{x})(y_i-\bar{y})$$
  1. 표본상관계수
  • 표본상관계수는 자료 분포의 방향성만 분리해서 보여줍니다.
  • 표본상관계수 $r_{xy}$는 아래처럼, 공분산 $s_{xy}$ 를 각 표준편차 $\sqrt{s^2_x}$, $\sqrt{s^2_y}$ 로 나누어 정규화하여 정의합니다. $$r_{xy} = \dfrac{s_{xy}}{\sqrt{s^2_{x} \cdot s^2_{y}}}$$
  • 다른 상관계수와 비교할 때는, 피어슨 상관계수라고 하기도 합니다.

부록: 다변수 가우시안 정규분포

  • $D$ 차원 다변수 가우시안 정규 분포의 확률밀도함수는 평균 벡터 $\mu$ 와 공분산 행렬 $\Sigma$ 라는 두 개의 모수를 가지며 다음 같은 수식으로 정의됩니다. $$\mathcal{N}(x ; \mu, \Sigma) = \dfrac{1}{(2\pi)^{D/2} |\Sigma| ^{1/2}} \exp \left( -\dfrac{1}{2} (x-\mu)^T \Sigma^{-1} (x-\mu) \right)$$

  • 다변수 가우시안 정규분포의 공분산 행렬 $\Sigma$ 는 대칭행렬이기 때문에 대각화 가능(diagonalizable) 합니다. 이 식에서 $\Lambda$ 는 고유값 행렬, $V$ 는 고유벡터 행렬입니다.