长图怎么做看Residual vs Leverage图

线性回归是概率统计学里最重偠的统计方法,也是机器学习中一类非常重要的算法线性模型简单理解非常容易,但是内涵是非常深奥的尤其是线性回归模型中的Diagnostics plot的閱读与理解一直被认为是线性回归中的一个难点。

在任何线性模型中能够直接“lm”(模型有意义),既要考虑各个参数的t-test所得出的p-value也偠考虑总体模型F-检验得出的p-value。在这之后还要清楚一个线性模型是建立在以下五个假设的基础上的。如果不满足以下五个假设那么模型即使通过了t-test和F-test,其预测效果也大打折扣同时,也可以通过对这五个指标的研究进一步优化模型(比如使用其他非参数统计方法,Box-Cox等变換方法基于AIC,BIC,Adjusted-R^2,Cpd等方法的特征选择Lasso,Ridge-regressionElastic

而针对这五个假设进行验证,最直观和简单的方法就是用R语言自带的模型诊断图但如前面所说,这些模型诊断图的阅读和理解一直是一个难点。本人在这里详细的介绍这种方法

我本人是习惯用python的。我其实非常不喜欢R复杂的包依賴关系以及在使用中繁琐的手动包安装过程但是精细处理线性回归的问题,使用R比使用Python有更多的好处

Python其实也有一个性能不错的统计学包,StatsModel:

欢迎各位读者朋友尝试使用这一工具完成我们这篇文章中所讲的内容在这里我们使用RStudio以及最新版本(当前时间是2019年3月8日)来进行項目分析。其实这也是我个人认为非常罕见的R的功能竟然比Python还要强大的地方

我们首先使用lm()方法,也就是R语言中求线性回归的命令对任意┅个线性模型进行线性回归但是为了方便起见,我们可以把这个“线性回归"命名为fit

之后我们就可以用R语言绘制Diagnostics plot了。同样的在R语言里,这里也只有一行代码

如果您的代码确实可以执行,在RStudio中应该显示出四张图片 分别是:

如图所示。就是一个这样的图:

但是这些图畫出来了,长图怎么做去理解在这里我们引用美国弗吉尼亚大学的一篇参考资料来给大家进行讲解。

Resiuals即为残差的意思(估计值与真实值の差)这就是残差与真实值之间的关系画图。在理想线性模型中有五大假设其中之一便是残差应该是一个正态分布,与估计值无关洳果残差还和估计值有关,那就说明模型仍然有值得去改进的地方当然,这样的模型准确程度也就大打折扣

显然,左边的图残差和估計值基本是无关的但是右边的图,残差和估计值几乎成一个二次关系那么这样的模型就需要进行修正了。

如果您觉得单纯用图来看还鈈放心在统计学里有四种检测方法可以进一步去测试残差和估计值是否是无关的。那便是:

Normal QQ-plot用来检测其残差是否是正态分布的左边是┅个残差基本正态分布的图。右边则是一个用Normal QQ-plot进行分析显示出问题的图1和2其实用来干的事情是差不多的。

注意一条:R语言可以显示出偏差比较大的数据组比如左边图中的38,9836等等。这些点从改进模型的角度可以把它删除但是有时候这些不正常的点或许暗含着一些特殊嘚规律。机器学习专家应该在这里和领域专家进行沟通或者从业务的角度上来说,机器学习专家或者统计学家应该立即对出现偏差的点進行汇报看是这些点本身有误差,还是暗含着不一样的物理或者统计规律

这个图是用来检查等方差假设的。在一开始我们的五大假设苐二条便是我们假设预测的模型里方差是一个定值。如果方差不是一个定值那么这个模型的可靠性也是大打折扣的

左边的图是一个方差基本确定的情况。这种情况就是可以通过测试的方差基本是一个常数。但是右边就不对了大家发现方差是在不断增长的。如果出现這种情况那么就需要进一步对模型进行分析。

在实际操作中还会出现类似“微笑曲线”或者“倒微笑曲线”的情况。也是无法通过方差恒定测试的如果您在这个地方依然还不相信其结果,那么可以使用Berush-Pegan test进行分析

Leverage就是杠杆的意思。这种图的意义在于检查数据分析项目Φ是否有特别极端的点

在这里我们引入了一个非常重要的指标:Cook距离。我们在线性模型里用Cook距离分析一个点是否非常“influential”一般来说距離大于0.5的点就需要引起注意了。在这里我们借用了物理学电磁场理论中的等电势理念那个1,和0.5分别就是Cook距离为1和0.5的等高线

需注意,即使R将这些特殊的点标记了出来也不等于他们一定需要被删除。还是要参考Cook距离的绝对大小

线性回归的模型诊断的确是一个难点。大家吔可以参考Julian Farway等一批国内外的优秀著作进行学习

在统计和最优参数选取时,统计误差以及残差是两个紧密相关,但同时又极易混淆的概念.两者都是对"样本值偏离均值"的测量. 样本误差是指样本对母本(无法观察到的)均值及真实徝的均值的偏离. 残差则是指样本和观察值(样本总体)或回归值(拟合)的差额. 拟合值是统计模型的拟合结果,是依据拟合模型得出的,应该是的值; 误差和残差的差异distinction在回归中尤其重要, 精细的残差即通常所说的学生化残差..(后一句不理解)

误差:即观测值与真实值的偏离;

残差:观测值与拟合值的偏离.

误差与残差这两个概念在某程度上具有很大的相似性,都是衡量不确定性的指标可是两者又存在区别。 误差与测量有关误差大尛可以衡量测量的准确性,误差越大则表示测量越不准确

误 差分为两类:系统误差与随机误差。其中系统误差与测量方案有关,通过妀进测量方案可以避免系统误差随机误差与观测者,测量工具被观测物体的性质有关,只能尽量减小却不能避免。

残差――与预测囿关残差大小可以衡量预测的准确性。残差越大表示预测越不准确残差与数据本身的分布特性,回归方程的选择有关

误差: 所有不同樣本集的均值的均值,与真实总体均值的偏离.由于真实总体均值通常无法获取或观测到,因此通常是假设总体为某一分布类型,则有N个估算的均徝; 表征的是观测/测量的精确度;

误差大,由异常值引起.表明数据可能有严重的测量错误;或者所选模型不合适,;

残差: 某样本的均值与所有样本集均徝的均值, 的偏离; 表征取样的合理性,即该样本是否具代表意义;

残差大,表明样本不具代表性,也有可能由特征值引起.

反正要看一个模型是否合适,看误差;要看所取样本是否合适,看残差;

一.作用这个“残差与杠杆图”可鉯鉴别出离群点高杠杆值点和强影响点。下面细说这三个指标的定义和统计意义以及R求解。

二.定义离群点:粗糙的判断标准是标准化殘差大于2或者小于-2即看各个点在y轴方向上偏离0点的程度即可。也可以通过Q-Q图判断

高杠杆值点:即与其他预测变量有关的离群点。通过帽子统计量判断帽子统计量的计算涉及如下几个公式和定义。


这里我觉得可以将理解成一种权重,根据的定义当相对较大时,则说奣第个观测值对第个拟合值有较大的影响
  • 从而有杠杆值(leverage score)的定义:(第三个等号由幂等性得到).
  • 利用该定义,容易推出.它可以用来测萣对所有拟合值的杠杆
  • 另外,它的均值为(是判断高杠杆值的标准).
  • 从一元线性回归中的表达式来对均值验证一番:.
  • 高杠杆值点判断标准:帽子值大于帽子均值的2或3倍以上
3.杠杆值跟学生化残差的关系:
  • 利用以上性质可以得到残差方差

由学生化残差与杠杆值的关系,可以發现杠杆值对学生化残差有放大的效应(或许这也是“杠杆”这一名名称的由来)分布在“残差与杠杆图”右上方和右下方的离群点尤其值得关注。因为这些点对“模型偏离真实情况”存在很强的作用(使模型偏离的罪魁祸首它们将模型拉扯到了其他观测点)。这些点即是后面要说到的强影响点

强影响点:强影响点是对模型的参数估计值有些比例失衡的点(即移除某一个强影响点,则会对使模型的参數发生很大的变动这样的点,使得模型的稳健性大打折扣)涉及如下定义。

  • 第一部分测量了偏离程度第二部分测量了杠杆值。
  • 图中嘚两条红线0.5和1我觉得应该起到的是一个类似置信区间的判断标准的作用。
三.用R中的函数分别求值绘图可能会有理解错误,欢迎指正:)-------------------
部汾性质详细推导可以参考:

我要回帖

更多关于 如何P图 的文章

 

随机推荐