R语言实战-02-回归诊断
- 置信区间
- R标准方法
- 二次拟合效果
- 改进的方法
本系列是对 《R语言实战》感兴趣部分的阅读笔记
在上一节中,你使用lm()函数来拟合OLS回归模型,通过summary()函数获取模型参数和相关统计量。但是,没有任何输出告诉你模型是否合适,你对模型参数推断的信心依赖于它在多 大程度上满足OLS模型统计假设。虽然在summary()函数对模型有了整体的描述, 但是它没有提供关于模型在多大程度上满足统计假设的任何信息。
在这一节中,我们来整理一下,如何评价线性模型
置信区间
置信区间是一种常用的区间估计方法,所谓置信区间就是分别以统计量的置信上限和置信下限为上下界构成的区间
输出
说明:
- 文盲率改变 1% ,谋杀率就在 95%的置信区间 [2.38,5.90]中变化
- Forst 的置信区间包含 0 ,当其他变量不变时,温度的改变与谋杀率无关
- 以上分析要求数据满足模型统计的假设
R标准方法
R基础安装中提供了大量检验回归分析中统计假设的方法。最常见的方法就是对lm()函数返回的对象使用plot()函数,可以生成评价模型拟合情况的四幅图形。下面是简单线性回归的 例子:
fit <- lm(weight ~ height, data=women)
par(mfrow=c(2,2))
plot(fit) #体重对身高回归的诊断图
如何理解这四幅图
- “残差图与拟合图” (Residuals vs Fitted)
- 线性 若因变量与自变量线性相关,那么残差值与预测(拟合)值就没有任何系统关联。 换句话说,除了白噪声,模型应该包含数据中所有的系统方差。在“残差图与拟合图”(Residuals vs Fitted,左上)中可以清楚地看到一个曲线关系,这暗示着你可能需要对回 归模型加上一个二次项。
- 按我的理解,就是观察残差是否均匀,有没有明显的变化趋势如果有需要增加一些变换,对于这幅图,书上的意思加一个二次项
- 这里给出一个网上找的的有变化的例子
- [右上] “正态Q-Q图”(Normal Q-Q)
- 正态性 当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正 态分布。“正态Q-Q图”(Normal Q-Q)是在正态分布对应的值下,标准化残差的概 率图。若满足正态假设,那么图上的点应该落在呈45度角的直线上;若不是如此,那么 就违反了正态性的假设。
- 可能出现的 Q-Q图 (以下是机器翻译)light tailed 轻尾left skew 左偏bimodal 双峰heavy tailed 重尾right skew 右偏
- [左下] “位置尺度图”(Scale-Location Graph)
- 同方差性 若满足不变方差假设,那么在“位置尺度图”(Scale-Location Graph) 中,水平线周围的点应该随机分布。该图似乎满足此假设。
- [右下] “残差与杠杆图”(Residuals vs Leverage )
- 从图形可以鉴别出离群点、高杠杆值点和强影响点。
- 一个观测点是离群点,表明拟合回归模型对其预测效果不佳(产生了巨大的或正或负的 残差)。
- 一个观测点有很高的杠杆值,表明它是一个异常的预测变量值的组合。也就是说,在预 测变量空间中,它是一个离群点。因变量值不参与计算一个观测点的杠杆值。
- 一个观测点是强影响点(influential observation),表明它对模型参数的估计产生的影响过 大,非常不成比例。强影响点可以通过Cook距离即Cook’s D统计量来鉴别。作者在书中说明,此图不够实用,后续会补充更好的呈现方式
二次拟合效果
利用上面的解读进行对应,拟合效果确实好了许多
改进的方法
改进方法将在下期呈现