ISLR_Chapter3 (线性回归)
Simple Linear Regression
RSS
Residual sum of squares.
Least Squares Coefficient Estimate
矩阵形式
Evaluation
Hypothesis testing 假设检验
p value : 观测值大于|t|的概率
RSE 和 r方
残差标准误( residual standard error)
rse 和 r方 是用来量化模型拟合数据的程度
r方更好用,因为在简单线性模型中R^2 = cor^2
Multiple Linear Regression
F 统计量需要多大才能拒绝H0,并得出相关性存在的结论呢?
事实证明,这些问题的答案取决于 n 和 p 的值。如果 n 很大,即使 F 统计量只是略大于 1 ,可能 也仍然提供了拒绝H0的证据。相反,若 n 较小,则需要较大的 F 统计量才能拒绝 H0
当 H0为 真,且误差项 Bi 服从正态分布时, F 统计量服从 F 分布。
Forward selection(贪婪)
从null 开始,不断地加,每次选rss最小的variable。 直到某停止条件,例如所有variable 的p值大于阈值。
Backward selection (p>n时不能用)
从满variable开始,每次移除pvalue最大的项。直到某停止条件,例如所有variable 的p值大于阈值
mixed selection
混合前两种方法
categorical变量的处理
创建dummy variable。 总dummy variable数为class数-1。
例如:某列:ABC 那就变成【是不是A,是不是B】两列
线性模型的assumption
- 可加性
如果不满足,例如x1和x2互相有影响,interaction effect。 就会导致非线性
解决方法:增加交互项 + a x1x2
Hierarchy, 如果x1和x2单独的p值很小,但是交互项p值很大,那么需要把两者的交互项考虑进去
- 线性性
多项式回归拓展模型解决
注意过拟合
潜在的问题
1. 非线性的响应-预测 关系
残差图( residual plot) 可以用来识别非线性。 即 ei 和 xi的散点图 (简单线性回归模型)
若是图中有明显趋势,说明非线性
解决方法:lox, 根号, 平方 和其他先进的方法
2. 误差项自相关 (correlation of error term)
理解:如果重复数据一遍,那么置信区间则会变成根号2倍,影响结果。
例子:time series时间序列,相邻时间点获得的观测误差有正相关关系
判断:绘制 时间函数的残差,若有规律,则说明有正相关
上图没有,中图有一点,下图很明显的跟踪现象
时间引起的可以解决,若以外的数据出现误差自相关,则需要良好的实验设计
3.误差项方差非恒定 (non-constant variance of error term)
可能随着响应值的增加而增加残差图呈漏斗形,可以通过log或者根号做变换,降低异方差性 或者加权最小二乘法拟合模型
4. outlier
y的离群点,学生化残差 studentized residual, e除以估计标准误。
值>3可能为离群点。 离群点可以直接删掉,但也要注意可能是模型缺陷,缺少预测变量
5. high-leverage point
离群点是指对于给定的预测值 Xi 来说,响应值 Yi 异常的点。相反,高杠杆 (leverage) 表示观测点 Xi是异常的。
通过杠杆统计量判断
6.共线性 collinearity
共线性( collinearity) 是指两个或更多的预测变量高度相关。 共线性降低了回归系数估计的准确性,它会导致beta的标准误变大
判断方法:看相关系数矩阵
多重共线性:看方差膨胀因子VIF 我们对每个因子,用其他N个因子进行回归解释。
VIF 值超过 5 或 10 就表示有共线性问题
解决办法:1.删去一个。2.把共线变量组合成单一的预测变量