发布于 

机器学习VIII - 异常检测(Anomaly Detection)与大数据的梯度下降

11. 异常检测(Anomaly Detection)

我们需要基于原有的数据,来预测一个新的数据,是否是一个异常值(可以理解为离群值),从而应用在反欺诈,生产质检等等。

11.1 密度估计(Density Estimation)

给定一个数据集$X$,估计所有特征的概率密度函数(PDF, Probability Density Function),以正态分布为例,计算$\mu,\sigma$。然后计算出$p(x)$,其中

p(x_{test}^{(1)}) = 0.0426 > \epsilon \ 非异常\\
p(x_{test}^{(1)}) = 0.0021 < \epsilon \ 异常

h(\theta) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + … + \theta_n x_n

J_{train}(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2

\begin{aligned}&重复直到收敛\ \{\\ &\theta_j := \theta_j - \alpha \frac{1}{m}(h_\theta(x^{(i)}) - y^{(i)})*x_j^{(i)}\\ &\}\end{aligned}

\begin{aligned}
cost(\theta, (x^{(i)}, y^{(i)})) &= \frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2 \\
J_{train}(\theta) &= \frac{1}{m}\sum^m_{i=1}cost(\theta, (x^{(i)}, y^{(i)}))
\end{aligned}

\begin{aligned}
&重复直到收敛\ \{\\
& \quad for\ \ i:=1,…,m\{ \\
& \quad \quad \theta_j := \theta_j-\alpha (h_\theta(x^{(i)}) - y^{(i)})*x_j^{(i)}\\
& \quad \} \\
&\}
\end{aligned}

\begin{aligned}
&重复直到收敛\ \{\\
& \quad for\ \ i:=1,11,21,…,m\{ \\
& \quad \quad \theta_j := \theta_j-\alpha \frac{1}{10}\sum_{k=i}^{i+9}(h_\theta(x^{(k)}) - y^{(k)})*x_j^{(k)}\\
& \quad \} \\
&\}
\end{aligned}
$$