SVM 中的函数间隔和几何间隔
首先回忆一下基础知识:点到超平面的距离。
样本点表示为\((\mathbf{x}_i, y_i)\) , 其中 \(y_i \in \{+1, -1\}\) 表示样本点的类别.
超平面 \((\mathbf{w}, b)\): \(\mathbf{w} \mathbf{x}_i + b = 0\).
该点到超平面的距离定义如下:
\[\begin{equation}
d = \frac{\vert\mathbf{w} \mathbf{x}_i + b \vert}{\Vert \mathbf{w} \Vert}
\end{equation}
\]
点在平面的不同侧时, \(\mathbf{w} \mathbf{x}_i + b\) 正负号是不同的。一侧为+,一侧为-。
函数间隔(functional margin) 定义如下:
\[\begin{equation}
d_f = y_i(\mathbf{w} \mathbf{x}_i + b)
\end{equation}
\]
函数间隔可以表示分类的正确性和确信度。但是如果超平面表示方式变为\((2\mathbf{w}, 2b)\)。虽然超平面没变,但是函数间隔变了。
如果将超平面的表示规范化,使得函数间隔固定,那么就变为了几何间隔(geometric margin),定义如下:
\[\begin{equation}
d_g = \frac{y_i(\mathbf{w} \mathbf{x}_i + b)}{\Vert \mathbf{w} \Vert}
\end{equation}
\]
也即是,几何间隔是带符号的点到超平面的距离(signed distance)。
其中,函数间隔和几何间隔的关系如下
\[\begin{equation}
d_g = \frac{d_f}{\Vert \mathbf{w} \Vert}
\end{equation}
\]
参考资料:李航 统计机器学习