感知机(perceptron)是二类分类的线性分类模型,属于判别模型,其输入为实例的特征向量,输出为实例的类别,取+1和–1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型,是神经网络(NN)与支持向量机(SVM)的基础。

输入空间$X \subseteq R^n$其中$x \in X$,输出空间$Y={+1,-1}$,输入空间到输出空间的函数如下:

称为感知机,其中$w$和$b$为感知机模型的参数,$w \in R^n$叫做权值(weight)或权值向量(weight vector),$b \in R$叫做偏置(bias),$w \cdot x$表示$w$和$x$的内积,$sign$是符号函数:

感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification model)或线性分类器(linear classifier),即函数集合${f|f(x)=w \cdot x + b}​$

感知机几何解释为特征空间$R^n$中的一个超平面,称为分离超平面(separating hyperplane),其中$w$是超平面的法向量,$b$是超平面的截距。

数据的线性可分性

给定一个数据集$T​$,如果存在某个$w \cdot x + b = 0​$能将测试机的正实例和负实例完全正确的划分到超平面两侧,即

称数据集$T​$为线性可分数据集(linearly separable data set) 否则,称为线性不可分数据集

感知机学习策略

损失函数的一个自然选择是误分类点的总数。但是,这样的损失函数不是参数w,b的连续可导函数,不易优化。损失函数的另一个选择是误分类点到超平面S的总距离,这是感知机所采用的。