Motivation#

K- Means Algorithm#

Non-probabilistic, 100% assign to that single cluster

Given:
- data set $\{ x_1, ...x_N \}$
- number of clusters $K$
Find:
- $K$ cluster centers $\{ \mu_1, ..., \mu_K \}$
- assign each data $x$ to a cluster center

for each data $x_n$ $x_{n}$ , $r_{nk} \in {0, 1} \ s.t \sum_K r_{nk} = 1$ $r_{nk} \in 0, 1 s . t \sum_{K} r_{nk} = 1$
- if data $x_n$ is in cluster $k$ , then $r_{nk} = 1$ , otherwise $0$ .
- Hard assignment
- each data is assigned to only 1 cluster
goal is to minimize $J=\sum_N \sum_K r_{nk} ||x_n-\mu_k||^2 \ \ s.t \sum_k r_{nk}=1$

Initialization: randomly choose $\{ \mu_k\}$
Assignment: fixed $\{ \mu_k\}$ ${μ_{k}}$ , minimize $J$ $J$ w.r.t $\{ r_{nk} \}$ ${r_{nk}}$
- $argmin_{r_n} \sum_K r_{nk} ||x_n - \mu_k||^2 \ \ s.t \sum_k r_{nk} = 1$
Update: fixed $\{ r_{nk} \}$ ${r_{nk}}$ , minimize $J$ $J$ w.r.t $\{ \mu_k\}$ ${μ_{k}}$
- $\frac {\partial J}{\partial \mu_k} = 2 \sum_N r_{nk} (x_n - \mu_k) = 0$
- $\mu_k = \frac {\sum_N r_{nk} x_n}{\sum_N r_{nk}}$ (mean of all points assigned to cluster $k$ )

Can we use probability to assign? (Soft assignment)

we try to get the partial derivative w.r.t $\mu_k, \sum_k, \pi_k$
$argmax_\theta ln p(x_1, ..., x_N| \theta) = argmax_{\pi, \nu, \sum} \sum_N ln \sum_K \pi_K N(x_n | \mu_k, \sum_k)$ , $\sum$ is inside $ln \ \Rightarrow$ no closed-form

Initialize $\pi_k, \mu_k, \sum_k$
Expectation step: evaluate responsibilies $r(Z)$ $r (Z)$
- $r(Z_{nk}) = \frac {\pi_k N(x_n | \mu_k, \sum_k)}{\sum_k \pi_k N(x_n | \mu_k, \sum_k)}$
Maximization step: update $\pi_k, \mu_k, \sum_k$ $π_{k}, μ_{k}, \sum_{k}$
- $\mu_k = \frac {1}{N_k} \sum_N r(Z_{nk})x_n$
- $\sum_k = \frac {1}{N_k} \sum_N r(Z_{nk}) (x_n - \mu_k)(x_n - \mu_k)^T$
- $\pi_k = \frac {N_k}{N}$
- where $N_k = \sum_N r(Z_{nk})$
Evaluate log-likelihood
- $ln \ p(x| \mu, \sum, \pi) = \sum_N ln (\sum_K \pi_K N(x_n | \mu_n, \sum_n))$
- check for convergence

Goal: find maximum likelihood solution for models with latent variables
- $ln \ p(x|\theta) = ln (\sum_Z p(x,Z| \theta))$
- no closed form
we don’t have complete $\{ X,Z \}$ , we can consider maximize the expected value of $p(x, z|\theta)$ w.r.t $p(z|x, \theta)$

Initialize $\mu, \sum, \pi$
Expectation step
- Expectation $Q(\theta, \theta_{old}) = \sum_Z p(z| x, \theta_{old}) ln \ p(x, z| \theta) = e_{z | x, \theta_{old}}[ln \ p(x, z | \theta)]$
Mazimization step
- $\theta_{new} = argmax_\theta Q(\theta, \theta_{old}) = argmax_\theta \sum_Z p(Z|x, \theta_{old}) ln \ p(x, Z| theta)$
- log is now insize $\sum \ \Rightarrow$ closed form
Check for convergence of either log likelihood or parameter value
- $\theta_{old} \leftarrow \theta_{new}$

maximize $ln \ p(x| \theta) = ln \sum_Z p(x, z| \theta)$ is difficult, we can maximize its lower bound $L(q, \theta)$ instead
$ln p(x| \theta) = L(q, \theta) + KL (q || p)$ $l n p (x ∣ θ) = L (q, θ) + K L (q ∣∣ p)$ where
- $L(q, \theta) = \sum_Z q(z) ln \frac {p(x,z |theta)}{q(z)}$
- $KL(q || p) = - \sum_Z q(Z) ln \frac {p(z|x, \theta)}{q(z)} \geq 0$