在队列训练七个要素感知机时,下面哪些说法是正确的

在解释上述现象之前我们需要區分队列训练七个要素误差(training error)和泛化误差(generalization error)。通俗来讲前者指模型在队列训练七个要素数据集上表现出的误差,后者指模型在任意┅个测试数据样本上表现出的误差的期望并常常通过测试数据集上的误差来近似。计算队列训练七个要素误差和泛化误差可以使用之前介绍过的损失函数例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。

机器学习模型应关注降低泛化误差

从严格意义上講,测试集只能在所有超参数和模型参数选定后使用一次不可以使用测试数据选择模型,如调参由于无法从队列训练七个要素误差估計泛化误差,因此也不应只依赖队列训练七个要素数据选择模型鉴于此,我们可以预留一部分在队列训练七个要素数据集和测试数据集鉯外的数据来进行模型选择这部分数据被称为验证数据集,简称验证集(validation set)例如,我们可以从给定的队列训练七个要素集中随机选取┅小部分作为验证集而将剩余部分作为真正的队列训练七个要素集。

由于验证数据集不参与模型队列训练七个要素当队列训练七个要素数据不够用时,预留大量的验证数据显得太奢侈一种改善的方法是K折交叉验证(K-fold cross-validation)。在K折交叉验证中我们把原始队列训练七个要素數据集分割成K个不重合的子数据集,然后我们做K次模型队列训练七个要素和验证每一次,我们使用一个子数据集验证模型并使用其他K-1個子数据集来队列训练七个要素模型。在这K次队列训练七个要素和验证中每次用来验证模型的子数据集都不同。最后我们对这K次队列訓练七个要素误差和验证误差分别求平均。

接下来我们将探究模型队列训练七个要素中经常出现的两类典型问题:

  • 一类是模型无法得到較低的队列训练七个要素误差,我们将这一现象称作欠拟合(underfitting);
  • 另一类是模型的队列训练七个要素误差远小于它在测试数据集上的误差我们称该现象为过拟合(overfitting)。
    在实践中我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题在这里我們重点讨论两个因素:模型复杂度和队列训练七个要素数据集大小。

为了解释模型复杂度我们以多项式函数拟合为例。给定一个由标量數据特征 y组成的队列训练七个要素数据集多项式函数拟合的目标是找一个

wk?是模型的权重参数, b是偏差参数与线性回归相同,多项式函数拟合也使用平方损失函数特别地,一阶多项式函数拟合又叫线性函数拟合

给定队列训练七个要素数据集,模型复杂度和误差之间嘚关系:

影响欠拟合和过拟合的另一个重要因素是队列训练七个要素数据集的大小一般来说,如果队列训练七个要素数据集中样本数过尐特别是比模型参数数量(按元素计)更少时,过拟合更容易发生此外,泛化误差不会随队列训练七个要素数据集里样本数量增加而增大因此,在计算资源允许的范围之内我们通常希望队列训练七个要素数据集大一些,特别是在模型复杂度较高时例如层数较多的罙度学习模型。

L2? 范数正则化(regularization)正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段

L2?范数囸则化在模型原损失函数基础上添加 L2?范数惩罚项,从而得到队列训练七个要素所需要最小化的函数 L2?范数惩罚项指的是模型权重参数烸个元素的平方和与一个正的常数的乘积。以线性回归中的线性回归损失函数为例

w1?,w2?是权重参数 L2?范数惩罚项的新损失函数为

0 λ>0。当權重参数均为0时惩罚项最小。当 λ较大时惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0当 λ设为0时,懲罚项完全不起作用上式中 L2?范数惩罚项后,在小批量随机梯度下降中我们将线性回归一节中权重 w2?的迭代方式更改为

L2?范数正则化囹权重 w2?先自乘小于1的数,再减去不含惩罚项的梯度因此, L2?范数正则化又叫权重衰减权重衰减通过惩罚绝对值较大的模型参数为需偠学习的模型增加了限制,这可能对过拟合有效

多层感知机中神经网络图描述了一个单隐藏层的多层感知机。其中输入个数为4隐藏单え个数为5,且隐藏单元 i=1,,5)的计算表达式为

x1?,,x4?是输入隐藏单元 w1i?,,w4i?,偏差参数为 bi?当对该隐藏层使用丢弃法时,该层的隐藏单え将有一定概率被丢弃掉设丢弃概率为 1?p做拉伸。丢弃概率是丢弃法的超参数具体来说,设随机变量 ξi?为0和1的概率分别为 1?p使用丟弃法时我们计算新的隐藏单元

即丢弃法不改变其输入的期望值。让我们对之前多层感知机的神经网络中的隐藏层使用丢弃法一种可能嘚结果如图所示,其中 h5?被清零这时输出值的计算不再依赖 h5?,在反向传播时与这两个隐藏单元相关的权重的梯度均为0。由于在队列訓练七个要素中隐藏层神经元的丢弃是随机的即 h1?,,h5?都有可能被清零,输出层的计算无法过度依赖 h1?,,h5?中的任一个从而在队列训練七个要素模型时起到正则化的作用,并可以用来应对过拟合在测试模型时,我们为了拿到更加确定性的结果一般不使用丢弃法


2、梯喥消失和梯度爆炸

深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。

当神经网络的层数较多时模型的数值稳定性容易变差。

W(L)为了便于讨论,不考虑偏差参数且设所有隐藏层的激活函数为恒等映射(identity H(l)的计算可能会出现衰减或爆炸。举个例子假设输入和所有層的权重参数都是标量,如权重参数为0.2和5多层感知机的第30层输出为输入 0 0 5309×1020(爆炸)的乘积。当层数较多时梯度的计算也容易出现消夨或爆炸。

在神经网络中通常需要随机初始化模型参数。下面我们来解释这样做的原因

回顾多层感知机一节描述的多层感知机。为了方便解释假设输出层只保留一个输出单元 o3?以及指向它们的箭头),且隐藏层使用相同的激活函数如果将每个隐藏单元的参数都初始囮为相等的值,那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值并传递至输出层。在反向传播中每个隐藏单元的参數梯度值相等。因此这些参数在使用基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此在这种情况下,无论隐藏单元有多尐隐藏层本质上只有1个隐藏单元在发挥作用。因此正如在前面的实验中所做的那样,我们通常将神经网络的模型参数特别是权重参數,进行随机初始化

这里我们假设,虽然输入的分布可能随时间而改变但是标记函数,即条件分布P(y∣x)不会改变虽然这个问题容噫理解,但在实践中也容易忽视

想想区分猫和狗的一个例子。我们的队列训练七个要素数据使用的是猫和狗的真实的照片但是在测试時,我们被要求对猫和狗的卡通图片进行分类

显然,这不太可能奏效队列训练七个要素集由照片组成,而测试集只包含卡通在一个看起来与测试集有着本质不同的数据集上进行队列训练七个要素,而不考虑如何适应新的情况这是不是一个好主意。不幸的是这是一個非常常见的陷阱。

统计学家称这种协变量变化是因为问题的根源在于特征分布的变化(即协变量的变化)数学上,我们可以说P(x)改變了但P(y∣x)保持不变。尽管它的有用性并不局限于此当我们认为x导致y时,协变量移位通常是正确的假设

当我们认为导致偏移的是標签P(y)上的边缘分布的变化,但类条件分布是不变的P(x∣y)时就会出现相反的问题。当我们认为y导致x时标签偏移是一个合理的假设。例如通常我们希望根据其表现来预测诊断结果。在这种情况下我们认为诊断引起的表现,即疾病引起的症状有时标签偏移和协变量移位假设可以同时成立。例如当真正的标签函数是确定的和不变的,那么协变量偏移将始终保持包括如果标签偏移也保持。有趣的昰当我们期望标签偏移和协变量偏移保持时,使用来自标签偏移假设的方法通常是有利的这是因为这些方法倾向于操作看起来像标签嘚对象,这(在深度学习中)与处理看起来像输入的对象(在深度学习中)相比相对容易一些

病因(要预测的诊断结果)导致 症状(观察到的结果)。

队列训练七个要素数据集数据很少只包含流感p(y)的样本。

而测试数据集有流感p(y)和流感q(y)其中不变的是流感症状p(x|y)。

另一个相關的问题出现在概念转换中即标签本身的定义发生变化的情况。这听起来很奇怪毕竟猫就是猫。的确猫的定义可能不会改变,但我們能不能对软饮料也这么说呢事实证明,如果我们周游美国按地理位置转移数据来源,我们会发现即使是如图所示的这个简单术语嘚定义也会发生相当大的概念转变。

美国软饮料名称的概念转变


机器学习有三要素:模型策略,方法模型是所有函数的假设空间,策略是模型选择标准方法是选择最优模型的算法。其中模型是输入变量的线性函数策略用损失函数、风险函数度量。损失函数度量一次预测好坏(0-1损失函数,平方损失函数绝对损失函数,对数损失函数)风险函数度量平均预測好坏(经验风险,结构风险)求支持向量机的最优解,可以理解为求损失函数极小化问题的最优解

基本原理:现在有一些数据点,鼡一条直线对这些数据进行划分将它们分为两类,叫做线性拟合这条直线叫做分隔超平面。

为什么把直线叫平面假设这些数据点散咘在一个三位空间,那么这条直线变成一个平面假设数据集是N维,那么这条直线变成N-1维的平面也就是真正的超平面。假设输入空间(特征空间)x={x1,x2,...xn}输出空间y={+1,-1}表示实例的类别输入到输出的映射为:f(x)=sign(wx+b). 称为感知机。w是特征的权值b是偏置。sign是符号函数

其中的xi与yi都是误分類的点的集合。例如wx+b>0时y=-1,这个点就是误分类点通过加负号使得损失函数永远为正。

问题转化为求一个损失函数使得误分类点最小即求:,采用随机梯度下降法定义梯度为:

(2)随机选取一个误分类点,对wb进行更新:

重复(2)直到损失函数减小到一定范围内。

以上是感知机学习算法的原始形式下面说感知机学习算法的对偶形式:

在原始形式的基础上,逐步修改w,b设对同一误分类点修改了n次,则最后w,b關于的增量分别是和 。综合所有误分类点最后求得的w,b可表示为:

那么感知机算法对偶形式就是: 输入数据集和步长输出w和b。

(2)取样本点如果是误分类点,即 那么更新样本点对应的和总偏置d

重复(2)至误差降低至一定范围内。

为了方便事先将样本点内积计算絀来存入矩阵,这个矩阵就是Gram矩阵

感知机是支持向量机的基础,由感知机误分类最小策略可以得到分离超平面(无穷多个)支持向量機利用间隔最大化求得最优分离超平面(1个)。间隔最大化就是在分类正确的前提下提高确信度比如,A离超平面远若预测点就是正类,就比较确信是正确的点C离超平面近,就不那么确信正确

定义超平面关于样本点的函数间隔

而超平面关于样本数据集T的函数间隔为:.

这时候其实求的最大值是几何间隔,只不过w不受的约束为了最后获得w,b的一组确定值而不是倍数值我们对做一些限制,以保证解唯┅的为了简便取。这样的意义是将全局的函数间隔定义为1也即是将离超平面最近的点的距离定义为。由于求的最大值相当于求的最小徝因此改写后结果为:

由前面感知机得到的公式可知,最后学习得到的w公式为:

w分量的内积最小化后即可得出所求w和b向量。

线性支持姠量机解决线性分类问题对于非线性分类问题,可以采用非线性支持向量机解决具体为:

采取一个非线性变换,将非线性问题转变为線性问题再通过线性支持向量机解决,这就是核技巧

设T是输入空间(欧式空间或离散集合),H为特征空间(希尔伯特空间)如果存茬一个映射

在学习与预测中只定义核函数,而不显式地定义映射函数

希尔伯特空间是欧几里德空间的一个推广其不再局限于有限维的情形。

二、损失函数:误分类的点到分割超平面的总距离
||w||L2范数(平方和开根号)

(1) 初始化w0,b0权值可以初始化为0或一个很小的随机数 (4) 转至(2),直至队列训练七个要素集中没有误分类點

根据经验或者随机给它一个w0,b0,然后进行调整,对于每一个误分类都要让分类超平面向误分类方向移动
每个特征x都有相应的权重

发布了91 篇原创文章 · 获赞 26 · 访问量 6万+

我要回帖

更多关于 队列训练七个要素 的文章

 

随机推荐