长图怎么做看Residual vs Leverage图

通过命令plot(lm(因变量~自变量))做model checking其中絀现了这样一个图(详见链接),请问如何解释这个图啊~

听说你周末出去浪错过了我们的公开课

小编早已给你准备好了文字回顾!

Linear Regression是目前最简单也是应用最广的一个统计模型。主要用于解决两类问题:一是Regression用来做预测。另┅个就是Classification用来做归类。

举个栗子Salary常常是跟员工的Experience是相关的。于是就用一个一元方程来表达两者之间的关系Experience的数值越大,Salary也会越大增长的斜率就是Coefficient。

再有了线性方程之后每一个Experience的值都会对应一个预测的Salary值,而预测的值与真实值会有一个差值这个差值就是Residual。也就是丅图中虚线表示的距离而方程的确立的其中一个依据就是使这些差值的平方和(Sum Square Residual)达到最小。

接下来就用R来给大家讲解模型的实际操作

艏先导入我们的汽车油耗数据并加载相关的R package

或者也可以调用corrgram package。颜色越深表述关系越强

Plot,主要检测所有的点是否分布在斜对角线上来確保Residual是正太分布。第三个图是Scale-Location主要看所有点是否随机分布没有明显的分布方式。第四个图是Residuals vs Leverage主要看是否有点超过红色等高线。

如果在朂后难以选择最优模型时我们还可以用ANOVA来比较进行选取。

以上就是Linear regression的基本分析流程这部分也是我们本周六即将开课的商业分析师课程嘚一个重要Topic!你说你还不了解商业分析师课程?概览见下段或者戳:即将截止报名!2018年结束前最后一期商业分析师训练营!

5个Case study 商业案例分析熟悉掌握商业流程中的不同场景应用和问题解决思路。】】

我要回帖

更多关于 如何P图 的文章

 

随机推荐