数理统计大作业有关假设检验,参数估计,回归分析和方差的无偏估计分析的综合案例分析有没有?万分感谢

应用数理统计第一次大作业学号: 姓名: 班级:SY1007?? xxxxxxx 51 班2010 年 12 月 国家财政收入的多元线性回归模型 国家财政收入的多元线性回归模型摘 要本文以多元线性回归为出发点,选取我国自 1990 至 2008 年连续 19 年的
财 政收入为因变量,初步选取了 7 个影响因素,并利用统计软件 PASW Statistics 17.0 对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系 的“最优”回归方程: ? y = 578.479 + 0.199 x4 + 0.733 x6 从而得出了结论,最后我们用 2009 年的数据进行了验证,得出的结果在误差范 围内,表明这个模型可以正确反映影响财政收入的各因素的情况。关键词:多元线性回归,逐步回归法,财政收入,SPSS0 符号说明变 量 符号 Y X1 X2 X3 X4 X5 X6 X7财政收入 工 农 业 业受灾面积 建 筑 业 人 口商品销售额 进出口总额1 1 引言中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展 放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高, 综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家 财政的状况对整个社会的发展影响巨大。 政府有了强有力的财政保证才能够对全 局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以 对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是 具体到各个方面的影响因素又有着十分复杂的相关原因。 为了研究影响国家财政 收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认 识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归 模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外 资总额, 第一产业的发展情况, 第二产业的发展情况, 第三产业的发展情况等等。 本文从国家统计信息网上选取了
年这 20 年间的年度财政收入及主要 影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数 等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反 映各个因素对财政收入影响的最“优”模型。2 解决问题的方法和计算结果2.1 样本数据的选取与整理 样本数据的选取与整理 数据的选 本文在进行统计时,查阅《中国统计年鉴 2010》中收录的 1990 年至 2009 年连续 20 年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观 上有线性关系的因素, 初步选取这十九年的国内总产值、 工业总产值、 人口总数、 建筑业、 农业、 受灾面积和商品零售总额等因素为自变量, 分析它们之间的联系。 根据选择的指标,从《中国统计年鉴 2010》查选数据,整理如表 2-1 所示。表 2-1
年财政收入及其影响因素统计表工业 (亿元) 农业 (亿元) 受灾面积 (千公顷) 建筑业 (亿元) 人口 (万人) 社会商品零售 总额(亿元) 财政收入 (亿元) 国民生产总值 (亿元)88.68728235.69.4826.2 94 97 00 03 06 0993 46.86 52.68 07.04 48.98
95.5 40.9 88.4 19.1 79.6 91.8 .9 92.9 26.0
06.3 818.225 72.23 23.513.5 3.8 6.5 .9 61.5 83.8 52.0 43.7 98.8517 121 626 786 627 227 756 129 47470.4 13.8 52.9 47.9 55.4 16.3 .6
948.95 2.2 1.14 44.08 86.04 15.25 49.29 21.78 18.3060.0 10.5 60.8 79.2 068.2
2.2 模型的建立与分析 将数据录入统计软件 excel,建立统计数据库,先建立财政收入与各变量的 散点图,如图 2-1 至图 2-7 所示。图 2-1 财政收入与工业总产值的散点图3 图 2-2 财政收入与农业总产值的散点图图 2-3 财政收入与受灾面积的散点图4 图 2-4 财政收入与建筑业的散点图图 2-5 财政收入与人口总数的散点图5 图 2-6 财政收入与商品零售总额的散点图图 2-7 财政收入与国内总产值的散点图从散点图中看出,国内生产总值、工业生产总值、农业、建筑业、商品零售 总额这四个变量与财政收入总量基本呈线性分布; 而人口总数虽然也与财政收入 存在正比的关系, 但是从直观上看线性关系不显著, 并且人口因素呈现指数关系。 受灾面积与财政收入总量的关系不明显。因此为使得到的模型有显著的线性关 系,在选取进入回归模型的自变量时,就要进行筛选。下面给出筛选过程。 (1)将国内生产总值、农业、工业生产总值、建筑业和商品零售总额纳入 自变量,逐步回归法,输出结果如图 2-8(a)(b)所示。 从结果可以看出,该回归的 F 值为 ,查表得 F0.95 (1, 2) = 18.5 ,显而6 易见,回归的显著性很好;但是由于在这里我们要分析的是影响财政收入的具体 产业,而该结果只说明了财政收入与国民生产总值的相关性很好,并不能说明问 题的根本所在。 所以在下面的分析中我们将剔除国民生产总值这个因素做进一步 的分析。Anovab 模型 回归 1 残差 总计 平方和 7.506E9 8.441E7 7.590E9 df 1 18 19 均方 7.506E9
Sig. .000aa. 预测变量: (常量), 国民生产总值 b. 因变量: 财政收入 模型汇总b 模型 1 RaR 方调整 R 方 .988标准估计 的误差 R 方更改 9更改统计量 F 更改
df1 1 df2 18DurbinSig. F 更改 Watson .000 .200.994 .989a. 预测变量: (常量), 国民生产总值 b. 因变量: 财政收入图 2-8(a)(b) 输出结果(2)将工业生产总值、农工、建筑业和商品零售总额纳入自变量,逐步回 归法,输出结果如图 2-9(a)(b)(c)所示。Anovab 模型 回归 1 残差 总计 平方和 4.757E9 2.834E9 7.590E9 df 1 18 19 均方 4.757E9 1.574E8 F 30.215 Sig. .000aa. 预测变量: (常量), 农业 b. 因变量: 财政收入模型汇总b 模型 1 RaR 方调整 标准估计 R 方 的误差更改统计量 R 方更改 F 更改 df1 df2 Sig. F 更改 .627 30.215 1 18 .000Durbin -Watson .390.792 .627 .606 a. 预测变量: (常量), 农业 b. 因变量: 财政收入 7 图 2-9(a)(b)(c) 输出结果从结果可以看出,该回归的 F 值为 30.215,查表得 F0.95 (1,3) = 10.1 ,显而易 见,回归的显著性很好;但是对回归系数的显著性来说,从直方图中可以看出, 采用以上三个变量作为自变量得到的线性模型仍不是很好。 这个模型也不是理想中的模型, 所以下面我们试图根据我们的判断对样本数 据进行筛选,力求得出比较理想的模型。 (3)下面我将农业这个变量暂且剔除,只采用工业、建筑业和商品零售总 额作为自变量,采用逐步回归法,输出结果如图 2-10(a)(b)所示。 从结果可以看出,该回归的 F 值为 20.219,查表得 F0.95 (1, 2) = 18.5 ,显而易 见,回归的显著性很好;但是对回归系数的显著性来说,建筑业的 t 检验值为 0.0002,查表得 t 0.975 (7) = 2.3646 ,显然回归系数的显著性不好。以上检验得到的 与利用 P 值法(图中的 Sig 值)得到的检验结果相符。因此,采用以上三个变量 作为自变量得到的线性模型仍不是很好。 同 时 可 以 看 出 , 只 对 建 筑 业 做 回 归 分 析 时 , F 值 为 20.19 , 查 表 得 到 F0.95 (1, 7) = 5.59 ,这证明一元回归模型和回归系数的显著性都很好。8 Anovab 模型 回归 1 残差 总计 平方和 4.015E9 3.575E9 7.590E9 df 1 18 19 均方 4.015E9 1.986E8 F 20.219 Sig. .000aa. 预测变量: (常量), 建筑业 b. 因变量: 财政收入模型汇总b 模型 1 R .727aR 方 .529调整 R 方 .503标准估计 的误差 更改统计量 R 方更改 F 更改 .529 20.219 df1 1 df2 Sig. F 更改 18 .000Durbin -Watson .546a. 预测变量: (常量), 建筑业 b. 因变量: 财政收入图 2-10(a)(b) 输出结果(4)只将工业和商品零售总额纳入自变量,输出结果如图 2-11(a)(b)所示。b Anova b模型 回归 1 残差 总计平方和 3.498E9 4.092E9 7.590E9df 1 18 19均方 3.498E9 2.273E8F 15.390Sig. .001aa. 预测变量: (常量), 工业。 b. 因变量: 财政收入a 系数a非标准化系数 模型 B (常量) 1 工业 a. 因变量: 财政收入 .132 .034 标准系数 t Sig.共线性统计量 容差 .959 .350 VIF标准 误差 试用版 93.923 .001 1.0001.000图 2-11(a)(b) 输出结果从上图结果中可以看出,对这两个变量做回归分析时,F 值为 15.39,证明 一元回归模型和回归系数的显著性都很好。 2.3 分析结果 分析结果9 由以上筛选和分析过程可以看出,财政收入 Y 分别对 X7 国内总产值、X1 工业总产值、X4 建筑业及商品零售总额 X6 进行一元回归分析时,其回归的显著 性都很好,但是综合为一个多元回归模型时,则出现了某些系数不显著的现象。 综合比较选取的几个多元模型, X4 建筑业和 X6 商品零售总额纳入自变量 将 时得到的模型效果最为显著,回归方程如下: ? y = 578.479 + 5.199 x4 + 4.733 x6 其中 F = 10.99 , R 2 = 0.564 。3 结论本次大作业,根据查阅中国统计年鉴,列举了影响财政收入的 7 个因素。从 直观上考虑,人口总量与受灾面积与财政收入存在线性关系,所以特意把这两个 变量列到其中, 但是散点图和回归效果显示这 2 个因素并没有进入逐步回归模型 中,由此看来,这两项因素与财政收入存在的关系可能不是严格线性的,或者这 种线性关系是长期的线性关系。 另外,在对进入模型的 5 个因素进行回归时发现,因变量对单独变量的回归 性很显著,但是整合成多元回归出现了某些回归系数不显著的现象,具体原因可 能是由于数据选取的太少,未能体现出长期线性这一特点。虽然得到的几个模型 系数都不是很显著, 但经综合比较, 选取了一个较为显著的模型作为最 “优” 解。 对得到的最“优”回归模型做预测,置信度为 95%。查阅中国统计年鉴,得 到 2009 年的 X4 建筑业为 22398.8(亿元),X6 商品零售总额为 14894(亿元),Y 财政收入为 68518.30(亿元),将自变量带入回归方程:? y = 578.479 + 1.199 x4 + 2.733 x6 = 578.479 + 1.199 × 22398.8 + 2.733 ×14894 =
(亿元) ? ? 预测区间为 ( y o ? δ ( xo ), y + δ ( xo )) , 其中 δ ( xo ) = t0.975 (7)Qe = 2.3646 ×
= 2674.56(亿元) 。 7代入数值得到置信度为 95%的预测区间为 (778.33) ,与查得的 2009 年能源消耗总量 68518.30(亿元)比较接近。10 得到的数据模型显示财政收入与建筑业、商品零售额有着密切的关系,这也 很符合目前国家的经济状况。不过由于调研时间有限,上述回归模型存在一些不 足,还需要不断查阅资料加以改进。但在一定程度上体现了与选取的自变量之间 的线性关系,并能对因变量做出近似的预测。综合来看,数据模型基本达到了预 期的目的。参考文献[1] 孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数 学系, 1999. [2] 张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出 版社,2002. [3] 国家统计局.2010 年中国统计年鉴[M]. 中国统计出版社,2010.逐步回归法建立纳斯达克股市指数回 归模型一 问题描述为了研究纳斯达克股市的变化规律,建立回归方程,分析影响股票价格趋势 变动的因素。这里我们选了 3 个影响股票价格指数的经济变量:x1 是成交额(万 $),x2 是国际贸易金额(100 万$) ,x3 是美元汇率。本例选择成交额 x1 来反映 市场状况。Y 为股票指数。本例采集了以上变量 1996---2007 年 12 年的数据资 料,如表 1 所示。表 1 1996---2007 年纳斯达克股市指数年份 98 01股票指数 1.73 9.94 7.95X1 是美元 汇率 556.10 317.40 302.10 253.60 279.90 290.60x2 是国际 贸易金额 85.85 30.17 26.20 3.33 10.78 20.3711x3 是成交额 62.60 34.40 78.10x4 优惠利率 113.96 170.66 188.42 70.19 97.45 162.84 04 079.06 7.66 8.27.80 413.40 719.10 903.40 1108.60347.85 48.03 62.90 128.09 172.55 259.01 67.50 172.30 93.42 141.85 125.87 112.89 127.28 104.59二 异方差问题分析1.异方差模型 经典线性回归模型可以表示为 y = b1 + b2 x 2 + b3 x 3 + L + bk x k + u ,假设有 n 组 观察值 ( yi , xi2 , xi3 , L, xik ), (i = 1,2,L, n) ,则原模型方程可表示为:y i = b1 + b2 x i 2 + b3 x i 3 + L + bk x ik + u i 。在经典线性回归模型中,假设随机误差项 u 是一个随机变量,且服从数学 期望为零,方差为一常数的正态分布,即 ui ~ N (0, σ u2 ) ,这一假设称为随机误差 项 u 的同方差性假设。另外还假设不同观察值的随机误差项之间是不相关的,而 且随机误差项与 x 项不趋于共同变化。但在实际的经济问题中,上述假设不一定 满足。比如,当自变量 x 变化较大时(如在一些横截面数据中) u 的方差可能 , 随 x 的变化而变化;而当 ui 和 u i + 1 之间存在一定的顺序关系时(如在时间序列 中) u i 可能与 u ,j并不独立(j ≠ i) 。当同方差(homosce dasticity)或等方差(equal variance)性假定不满足,也 就是说,随机误差项 u i 的方差不等于一个常数,即Var(u i) E(u i2) σ i2 ≠ 常数(i = 1,2, L , n) = = 则称随机误差项 u 具有异方差 (heteroscedasticity)或非同方差(unequal variance)性。在模型(1-3)中,除 随机误差项具有异方差性外,其它基本假设都能满足,则称这种模型为异方差的 线性回归模型,简称异方差模型。 2 异方差性的后果 变量的显著性检验失去意义, 在多元线性回归模型的显著性检验中,构造了t12 2 统计量,在该统计量中包含有随机误差项共同的方差 σ u ,并且有t 统计量服从自由度为( n - k - 1) 的t 分布. 如果出现了异方差性, t 检验就失去意义. 采 用其它检验也是如此. 模型的预测失效,一方面,由于上述后果,使得模型不具有良好的统计性质;2 另一方面,在预测值的置信区间中也包含有随机误差项共同的方差 σ u , 所以当模型出现异方差性时,它的预测功能失效. 3 异方差性检验 (1)残差图分析法 残差图分析法是一种直观、方便的分析法,它以残差 e 为纵坐标,以任何其 他的量为横坐标画散点图。常用的横坐标有有三种选择:以拟合值为横坐标;以 Xi 为横坐标,i=1,2………p;以观察时间或序号为横坐标。一般情况下,当回归 模型满足所有假设时,残差图上的 n 个点的散布会应是随机的,无任何规律的。 如果回归模型存在异方差,残差图上的点的散步会呈现相应的趋势。 (2)等级相关系数法 等级相关系数检验法又称斯皮尔曼(spearman) 检验,是一种应用较广泛的方法。这种检验法既可用于大样本,又可用于小 样本。 (3)格莱斯尔(Glejser)检验 格莱斯尔检验的中心思想是随机项的估计值 e 与自变量是有关系的, 是自变 量的函数,它随 J 值的增减而变化。进行格莱斯尔检验主要有两个步骤: 1)以所有解释变量 Xi 来解释被解释量 y,估计其参数,计算出随机项的估 计值 e。 2)以 e 为被解释变量,以某个解释变量 Xi 为解释变量,建立如下方程: | e |= αo + α1 f ( χ i ) + ε 以 Xi 的不同幂次的形式 f(Xi),分别估计两个参数 αo , α1 ,选择最佳的拟合 形式,并对它们的显著性进行检验。如果它们显著性不为 0,则认为异方差性存 在,因为随机项与 Xi 存在相关性。否则就具有同方差性。 4 异方差性问题的处理方法13 当研究的问题存在异方差性时,就违背了线性回归模型的假设。此时,就不 能用普通最小二乘法进行参数估计,必须寻求适当的补救方法,对原来的模型进 行变换,使变换后的模型满足同方差性假设,然后进行模型参数的估计,就可到 理想的回归模型。消除异方差性的方法通常有加权最小二乘法(Weighted Least Square) 、BOX-COX 变换法、方差稳定性变换法。在 SPSS 软件中提供了加权最小 二乘法。三 多重共线性分析在多元线性回归模型的基本假设中, 假定解释变量之间不存在密切的线性关 系。如果存在,则称它们存在多重共线性(Multi-Collinearity) 。 1 多重共线性带来的问题 当回归模型存在多重共线性时,有 rk(x)&p+1,所以 | X T X |= 0, ( X T X ) ?1 不存 在。这样参数向量的 OLSE β =( X T X ) ?1 X T Y 也不存在, | X T X^|= 0, ( X T X ) ? 1 对角线元素较大,所以参数向量的协方差也很大。这样虽然用 OLSE 还能得到参数向量的 无偏估计,不能正确判断解释变量的影响程度,使估计精度降低,并且估计结果 的波动性很大,这严重影响了估计量的经济意义解释。 2 多重共线性的诊断 本文介绍三种诊断方法 (1)判定系数法 设有 p 个自变量的回归模型为:y=f(x1,x2,……..,xp),为了诊断多重共线 性, 使模型中每一个解释变量分别为其余解释变量作为解释变量构造 p 个回归方 程: X1=f(X2,X3,……Xp); X2=f(X1,X2,…Xp); …… Xj=f(X1,X2,….Xj-1,Xj+1,…Xp); …… Xp=f(X1,X1,…..Xp) 对上述 p 个方程进行参数估计,并计算样本决定系数。若这些决定系数中的14 最大者接近 1,比如说 R 2 ,则说明该变量 Xj 可以用其他解释变量线性表示,则 j 存在多重共线性。并且还同时找出了多重共线性的表达式。这种方法比较适合于 解释变量少的模型。这种方法可以在 SPSS 软件上完成。 (2)条件数 K = λ1 / λ2 被称为方差 X T X 的条件数(Condition Number).利用条件数可 以度量 X T X 的特征根散布程度,可以用它来判断多重共线性是否存在以及多重 共线性的严重程度。通常认为 0&k&100 时,设计矩阵 X 没有多重共线性; 100&k&1000 时,认为 X 存在较强的多重共线性;当 k&1000,则认为存在严重的多 重共线性。在 SPSS 软件中没有该方法。 (3)方差扩大因子 设 C = (cij ) = ( X T X ) ?1 , R j 为 Xj 对其余 p-1 个变量的复相关系数,则cij = 1 / (1 ? R 2 ), j = 1,2,..., p, 被称为方差扩大因子(Variance inflation Factor, j简记为 VIF) 如果记 β = ( β1, β 2, ........ β p ), 则 var( β j ) = σ 2 c jj ,即cij与OLSE β j 的方差 。 仅差一个因子, var( β j ) 是由两个因子 σ 2 和 c jj 构成,且 c jj 与 OLSE β j 的方差仅差 一个因子。因为 R 2 度量了自变量 Xj 与其余 p-1 个自变量的线性依赖度,这种相 j 关程度越强,说明自变量之间的多重共线性越严重, R 2 就越接近 1,VIFj 也就 j 越大。 反之则相反。 由此可见 VIF 的大小反映了自变量之间是否存在多重共线性, 由此可由它来度量多重共线性的严重程度。经验表明,当 VIF&10 时,就说明自 变量间有严重的多重共线性,且这种共线性可能会过度地影响最小二乘估计值。 以上三种方法都是诊断共线性是否存在的专门方法,相对这几种方法,还有 一些在建模过程中能顺便主观判断的非正规方法。 3 消除多重共线性的方法 当通过某种检验,发现解释变量中存在严重的多重共线性时,就要设法消除 这种共线性。消除这种共线性的方法很多,常用的有下面几种。 (1)剔除一些不重要的解释变量。通常在经济问题的建模中,由于人们认 识水平的局限,容易考虑更多的自变量。当涉及自变量较多时,大多数回归方程15~~~~~~~~ 都受到多重共线性的影响。这时,最常用的办法就是舍去一些与 y 相关程度低、 而与其他自变量高度相关的变量,然后重新建立回归方程。 (2)最大样本容量。建立一个实际经济问题的回归模型,如果所收集的样 本数据太少,也容易产生多重共线性。这时可以通过增加样本容量来减弱多重共 线性的程度。 (3)改变变量定义形式。对于样本数据是时间序列资料时,回归方程存在 的多重共线性,我们可以重新定义变量的形式,差分法就是改变变量定义形式的 一种方法。 (4)利用已知信息。即利用一些先验信息组合某些变量。例如模型中的两 个参数 b1 和 b2 满足关系:b1=5b2,这时可将这个等式代入到原模型中,把模型 的变量综合到一起,再利用最小二乘法进行估计。 (5)回归系数的有偏估计。这种方法提出以引人偏误为代价来提高估计量稳 定性的方差,如岭回法、主成分法、偏最小二乘法等。 (6)将截面数据与时序相结合。 (7)采用新的样本数据。在数据中重新抽取一个样本,有可能会减弱其中变 量的多重共线性,因为数据样本的变化,往往会对方程的回归系数及其标准误差 产生影响。 这些消除多重共线性的方法都可以在 SPSS 软件中间接完成。四 数据分析与模型建立1 对变量引入/剔除方式信息表的分析表2 模型 1 2 3 输入的变量 x3 成交额 x1 美元汇率 x2 国 际贸 易 金额 a. 因变量: y 股票指数 移去的变量 概率 &= .100) 。 . 步进(准则: F-to-enter 的概率 &= .050,F-to-remove 的 概率 &= .100) 。 . 步进(准则: F-to-enter 的概率 &= .050,F-to-remove 的 概率 &= .100) 。 输入/移去的变量a方法 . 步进(准则: F-to-enter 的概率 &= .050,F-to-remove 的通过逐步回归产生的三种模型 1、2、3,模型 1 的自变量只有 X3,模型 2 的 自变量有 X3 和 X1,模型 3 的自变量有 X2、X3 和 X1。表 2 显示变量的引入和 剔除,以及引入或剔除的标准。逐步回归方法最先引入变量 X3,建立模型 1。16 接着引入变量 X1,没有变量被剔除,建立模型 2。最后引入 X2,没有变量被剔 除,建立模型 3。2 对模型汇总表的分析表 3 模型汇总 模型 1 2 3 R .984 .997 .999a b cR 方 .967 .995 .997调整 R 方 .964 .994 .996标准 估计 的误差 370.654 121.84788更改统计量 R 方更 改 .967 .028 .002 F 更改 296.554 48.441 6.469 df1 1 1 1 df2 10 9 8 Sig. F 更改 .000 .000 .035 1.236 Durbin-Watsona. 预测变量: (常量), x3 成交额。 b. 预测变量: (常量), x3 成交额, x1 美元汇率。 c. 预测变量: (常量), x3 成交额, x1 美元汇率, x2 国际贸易金额。 d. 因变量: y 股票指数表 3 显示了各模型的拟合情况。模型 3 的自相关系数(R)为 0.999,判断系 数为 0.997。从统计变量的改变看,模型 1 的改变值绝对大于其他两个模型,这 说明与该模型相关的自变量 X3 是因变量很好的预测。 3 对方差分析表的分析表 4 方差分析表 Anova 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 平方和 4.066E7
4.203E7 4.182E7
4.203E7 4.191E7
4.203E7 df 1 10 11 2 9 11 3 8 11 1.397E7 0.986 .000c d均方 4.066E7
2.091E7 F 296.554Sig. .000a875.944.000ba. 预测变量: (常量), x3 成交额。 b. 预测变量: (常量), x3 成交额, x1 美元汇率。 c. 预测变量: (常量), x3 成交额, x1 美元汇率, x2 国际贸易金额。 d. 因变量: y 股票指数表 4 显示各模型的方差分析结果。模型 3 的 P 值为 0.00&0.05,拒绝原假设,17 认为因变量与其他三变量 X2、X3 和 X1 之间有线性关系。4 对模型回归系数表的分析表 5 回归系数 模型 非标准化系数 标准 B 1 (常量) x3 成交额 2 (常量) x3 成交额 x1 美元汇率 3 (常量) x3 成交额 x1 美元汇率 x2 国际贸易 金额 a. 因变量: y 股票指数 - .066 -936.58 7 .039 2.328 - .041 4.316 -7.223 误差 332.41 6 .004 190.19 6 .004 .334 270.04 4 .003 .825 2.840 .608 11.966 .810 5.232 -.403 -2.543 .000 .001 .035 .984 .973 .966 .973 .880 -.669 .225 .098 -.048 .137 7.317 .015 67.916 .014 71.164 .579 .437 9.222 6.960 -5.583 .000 .000 .001 .984 .973 .951 .918 .220 .166 .144 .144 6.945 6.945 .984 17.221 -4.924 .000 .001 .984 .984 .984 1.000 1.000 试用版 t -5.542 Sig. .000 零阶 偏 部分 容差 VIF 标准系 数 相关性 共线性统计量a表 5 显示各模型的偏回归系数、标准化的偏回归系数及其对应的检验值;还 显示了模型中的各变量与因变量的零阶相关、偏相关和部分相关;还有多重共线 性统计量。根据模型 3 可以建立多元线性回归方程为:y = 4.316X1 ? 7.223X 2 + 0.041X 3 ? 1507.7 ,这里 X3 的系数为负,显然不合理,原^因可能是由于自变量之间存在多重共线性。 5 对被剔除的变量信息表的分析表 6 已排除的变量 模型 Beta In 1 x1 美元汇率 .437a共线性统计量 t 6.96018Sig. .000偏相关 .918容差 .144VIF 6.945最小容差 .144 x2 国际贸易 金额 x4 优惠利率 2 x2 国际贸易 金额 x4 优惠利率 3 x4 优惠利率.383 -.144 -.403 -.048 -.047a3.807 -3.910 -2.543 -1.426 -1.982.004 .004 .035 .192 .088.785 -.793 -.669 -.450 -.600.137 .986 .014 .458 .4587.277 1.014 71.164 2.181 2.181.137 .986 .014 .067 .013a bb ca. 模型中的预测变量: (常量), x3 成交额。 b. 模型中的预测变量: (常量), x3 成交额, x1 美元汇率。 c. 模型中的预测变量: (常量), x3 成交额, x1 美元汇率, x2 国际贸易金额。 d. 因变量: y 股票指数表 6 显示各模型变量的有关统计量。对模型 3 来说,它的偏回归系数的 P 值 都大于 0.05,接收原假设,不能把这些变量加入方程中 6 对多重共线性的诊断及排除表 7 多重共线性诊断 模型 维数 特征值 1 2 1 2 1 2 3 3 1 2 3 4 1.947 .053 2.840 .150 .010 3.647 .341 .010 .002 条件索引 1.000 6.055 1.000 4.352 17.140 1.000 3.271 19.158 38.535 (常量) .03 .97 .01 .20 .80 .00 .02 .34 .64a方差比例 x1 美元汇 x3 成交额 .03 .97 .00 .00 1.00 .00 .00 .98 .02 .00 .12 .87 .00 .00 .04 .96 .00 .01 .01 .98 率 x2 国际贸易金 额a. 因变量: y 股票指数表 7 显示多重共线性的诊断表,它包括 3 项诊断值:特征值、条件数和方差 比率。特征值表明在自变量中存在多少截然不同的维数,当几个特征值都接近 0 是,变量是高度相关的,这样的数据微小改变将导致系数估计值的改变较大。条 件数是最大特征值对每一个连续特征值的比率的平方根,若条件数大于 15 则表 明可能存在多重共线问题,若大于 30 则表明存在严重的多重共线性问题方差比 率是能够被每一个主成分解释的估计值方差的比率, 这个主成分是与其对应的特 征值相关的。 当与高条件数相关的成分充分贡献于两个或者更多的变量方差时就 产生了多重共线性。表 7 中变量 X2 的条件数大于 30,说明回归方程存在多重共 线性。19 6.1 多重共线性的诊断与处理 ( 一 ) 运 用 方 差 扩 大 因 子 法 。 如 表 5 所 示 ,x1 、 x2 的 方 差 扩 大 因 子 VIF1=67.916,VIF2=71.164。远超过 10,说明回归方程存在严的多重共线性。 (二)剔除一些解释变量。X2 的方差扩大因子最大,剔除 x2,用 SPSS 诊断,对数据 进行分析可得下列几个表:c 表 8 模型汇总c模型 调整 R R 1 2 .984 .997a更改统计量 标准 估计 R 方更 的误差 370.654 改 F 更改 4bSig. F df1 1 1 df2 10 9 更改 .000 .000Durbin-Wa tsonR 方 .967 .995方 .964 .994.967 296.55 .028 48.4411.168a. 预测变量: (常量), x3 成交额。 b. 预测变量: (常量), x3 成交额, x1 美元汇率。 c. 因变量: y 股票指数 表 9 回归系数 a 非标准化系数 模型 B (常量) 1 x3 成交 额 (常量) x3 成交 2 额 x1 美元 汇率 标准 误差 标准系 数 t 试用版 -5.542 .984 17.221 -4.924 .579 .437 9.222 6.960 .000 .000 .001 .000 .000 .984 .973 .951 .918 .220 .166 .144 .144 6.945 6.945 .984 .984 .984 1.000 1.000 Sig. 零阶 偏 部分 容差 VIF 相关性 共线性统计量-.416 .066 -936.587 .039 2.328 .004 190.196 .004 .334a. 因变量: y 股票指数此时 x1、x3 的方差扩大因子分别为 VIF1=6.945,VIF3=6.945。同时, 复相关系数 R=0.997,决定系数 R2=0.997,F=8754,回归系数的显著性检验 P 值均小于 0.05,故可认为方程具较强的拟合性,x1、x3 整体上与 y 高度相关。 7 对残差统计表的分析表 10 残差统计量 a20 极小值 预测值 残差 标准 预测值 标准 残差 a. 因变量: y 股票指数极大值均值
.0 .000标准 偏差
103. .853N 12 12 12 12971.44 -142.078 -1.335 -1.166 1.909 1.542表 10 是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差 等统计量的最大值、最小值、均值和标准差。可见标准化残差的最大绝对值为 1.5428 迪欧残差分布直方图的分析回归标准化残差 图 1 回归标准化残差 图 1 是标准化残差的直方图。 正态曲线被加在直方图上, 判断标准化残差是否呈正态分 布。从图可以看见,它服从近似正态分布。9 对残点图的分析21 图 2 散点图 图 2 是散点图。选用 DEPENDENT(X 纵轴变量)与*ZPRED(Y 横轴变量)作图, 绘制回归残差项 e 的图形,从图中可以看出变量间不存在自相关性。9.1 异方差性消除 若模型存在异方差性,则可以进行如下操作,依次点击 Analyze→ Regression→Weight―Estima-tion,将人均食品消费支出选为因变量,人均纯收 入选为自变量,人均纯收入选为 WeightVariable, Power 取值范围从-2 到 2,每次 变化 0.5,即可得到结果。五 总结通过以上分析,可得回归方程为: y = 2.328X1 + 0.039X 3 ? 936.587 y 代表纳斯达克指数, X1 表示美元汇率(%), X 3 代表成交额(100 万$) 。 从上述回归方程看,影响纳斯达克指数的主要因素为成交额和美元汇率。成 交额作为反映市场因素的主要指标对股票价格有主要影响。纳斯达克股市上,成 交额每增长 100 万美元,指数上涨 0.039 个百分点。美元汇率反映国际金融情况 的指标,它代表金融环境对股票价格的影响,美元汇率没增长一个百分点,指数 上涨 2.328 个百分点。^^22 23
北航数理统计回归分析大作业―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。

我要回帖

更多关于 最小方差无偏估计 的文章

 

随机推荐