偏残差图(Partial Residual Plot)是多元回归中常用的诊断工具,特别是评估模型中在一个或另一个解释变量中是否包含非线性项。在多元回归y=β0+β1x1+…+βpxp+ε中,若欲反映其中变量Xj与因变量y之间的关系并用图形显示,其方法之一是用偏残差图。偏残差图是用偏残差代替残差图中的普通残差。

基本介绍

偏残差图由的散点图组成,其中,是关于第i个解释变量的第j次观察,定义为:

其中,是反应变量的均值,是第i个解释变量的均值,是关于解释变量i的回归系数的估计,是第j次观察的残差。图形中的非线性表明回归模型中包含中的非线性项。

偏残差图是用偏残差代替残差图中的普通残差。

相关分析

假设y是可加地但并非必然线性地相关于 ,则有:

若偏回归函数 是简单而单调的,那我们就能通过应用凸出法则来找到能使y和预测变量 关系线性化的变换。在另一种情况下,若 的简单多项式形式,比如二次或三次多项式,那么我们就可以指定一个包含预测变量多项式形式的参数模型。

由于预测变量之间的相关性,在多元回归中寻找非线性关系要比在简单回归中更困难。因此,虽然y关于 散点图能够提供关于两个变量之间边际关系的信息,但它并不必然能告诉我们在控制其他xs不变的情况下y与 之间的偏关系

在大多数场合下,偏残差图(也被称做成分+残差图,component+residual plots)能够帮助检测多元回归中的非线性。让我们拟合一个初步的线性最小二乘回归:

此时为了得到 的偏残差,我们向关于y与 之间关系的

线性成分中加入最小二乘法残差:

这里关键的想法是y与 之间未进入模型的非线性关系应能体现在最小二乘法的残差中,从而通过描绘并平滑 的关系能够揭示y与 之间的偏相关关系。我们将平滑后的偏残差图看做对偏回归函数的估计值 。我们对每一个预测变量 重复这一过程。

基于加拿大职业声望数据职业声望对收入和教育回归的偏残差图如图1所示。每一幅图中的实线给出了局部线性拟合;虚线给出了最小二乘法拟合结果并描绘了从相应预测变量方向上侧面看过去的多元最小二乘回归平面。

图1 关于职业声望对(a)收入(b)教育回归的偏残差图。每一幅图中绘出使用跨距=0.6的局部线性拟合,以及线性最小二乘线。

从图1(a)中可以明显地看到控制教育后声望和收入的关系明显是非线性的。虽然非参数回归曲线并不完全平滑,凸起部分指向上方和左方,提示我们要沿幂阶和根式阶向下变换收入变量。视觉试错法表明对收入的对数变换能够将声望与收入的关系拉直。除非所有的偏残差图部呈现相似的模式,我们在多元回归中更喜欢变换预测变量而不是响应变量,这是由于对y的变换将会改变它与所有x之间的关系。

·图1(b)暗示声望与教育之间的偏关系是非线性、单调、非简单的。其结果是,对教育的幂变换并不可取。我们可以尝试对教育使用立方回归(即,在回归模型中引入包括教育、教育的平方和教育的立方),但由于偏离线性较小,另一个可行方案是直接将教育的影响当做线性的。

对职业声望关于教育和收入对数(以2为底数)进行回归可得到如下结果:

因此,保持教育不变,收入翻倍(即增加1单位的log2收入)平均起来能够使职业声望增加大约8点;保持收入不变而增加1年教育则平均能使声望增加4点1。

本词条内容贡献者为:

刘军 - 副研究员 - 中国科学院工程热物理研究所

偏残差图

图文简介

偏残差图(Partial Residual Plot)是多元回归中常用的诊断工具,特别是评估模型中在一个或另一个解释变量中是否包含非线性项。在多元回归y=β0+β1x1+…+βpxp+ε中,若欲反映其中变量Xj与因变量y之间的关系并用图形显示,其方法之一是用偏残差图。偏残差图是用偏残差代替残差图中的普通残差。