机器学习V - 支持向量机(Support Vector Machines)

7. 支持向量机(Support Vector Machines)

先从SVM模型的分类问题入手，上述已经学习的逻辑回归的代价函数如下

$\begin{aligned} J(\theta) &= \frac{1}{m}[\sum^m_{i=1} y^{(i)}*-log(h_\theta(x^{(i)})) + (1-y^{(i)})*-log(1-h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum^n_{j=1}\theta_j^2 \\ \end{aligned}$

为了便利，我们使用$cost()$来代替其中的一部分

$\begin{aligned} cost_1(\theta^Tx^{(i)}) &= -log(h_\theta(x^{(i)})) \\ cost_0(\theta^Tx^{(i)}) &= -log(1-h_\theta(x^{(i)})) \end{aligned}$

与逻辑回归不同的是，SVM的$cost()$函数需要满足以下条件

$\begin{aligned} y &= 1, \theta^tx > 1\\ y &= 0, \theta^tt \leq -1 \end{aligned}$

逻辑回归的分类界限为0，而SVM为1和-1，更加严格，这样也就会用一个区域两组样本分开，不仅仅是一条线，而最大化这个区域，也就是最好的分类器。

并且 $C = \frac{1}{\lambda}$，以及忽略常数项，SVM的代价函数为

$J(\theta) = C\sum^m_{i=1}[ y^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)}) ] +\frac{1}{2}\sum^n_{j=1}\theta_j^2$

假设函数为

$h_\theta(x) = \left\{ \begin{aligned} 1 \quad if \ \ \theta^T \geq 0 \\ 0 \quad otherwise \end{aligned} \right.$

7.1 核函数

核函数是将训练样本进行增维，转化为线性可分

Mathematics SVM - input and featured space

根据$(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}),…, (x^{(m)}, y^{(m)})$

选择$l^{(1)} = x^{(1)}, l^{(2)} = x^{(2)},…, l^{(m)} = x^{(m)}$

所以$f_m^{(i)} = similarity(x^{(i)}, l^{(m)})$

其中高斯核函数为

$similarity(x, y) = exp(-\frac{||x-y||^2}{2\sigma^2}) = exp( -\frac{ { \sum_{ j=1 }^n(x-y) }^2 } { 2\sigma^2 } )$

则有向量

$f^{(i)} = \begin{bmatrix} f_0^{(i)} \\ f_m^{(i)} \\ \vdots \\ f_m^{(i)} \end{bmatrix}$

使用了核函数的SVM模型的假设为：

根据$x$，计算出特征$f \in \mathbb{R}^{m+1}$，当$\theta^Tf\geq0$时预测$y=1$

代价函数为：

$min_\theta C\sum^m_{i=1}[ y^{(i)}cost_1(\theta^Tf^{(i)})+(1-y^{(i)})cost_0(\theta^Tf^{(i)}) ] +\frac{1}{2}\sum^m_{j=1}\theta_j^2$

7.1.1 SVM参数

$C\ \ or \ \ 1/\lambda$

$C$大会导致低误差，高方差，反之亦然
$\sigma$

$\sigma$大会导致特征比较平滑，高误差，低方差

7.2 应用

$n$ = 特征数量，$m$ = 样本量

$n$大（相对于样本量来说），使用逻辑回归，或者不使用核函数的SVM

因为样本量多时，使用核函数很慢，需要遍历所有特征

如果$n$小，可以使用核函数的SVM

如果$n$小，$m$大，建立其他特征，之后使用逻辑回归，或者不使用核函数的SVM

本文使用 Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) 许可协议，转载请注明出处。