线性回归模型的建模步骤
对于每个自变量和因变量之间做出散点图,观察变量间的趋势。
观察散点图的三个信息层次。
观察是否有线索趋势。
观察相关性是线性的还是曲线的。
观察是否有偏离趋势的强影响点。
图一,明显可以看出是一个线性回归的例子。
图二,是一个曲线,可能是抛物线,可能是对数曲线,去拟合相应的曲线模型。肯定不能使用线性回归。
图三,具有明显的相关性,但是有一个强影响点存在,拟合后肯定会使得模型的斜率增大。一般处理方式,确认数据是否正确;对于问题是否有代表性,可以考虑删除;对于这个点的影响,使用对照的方法,建立一个有异常点和没有异常点的模型,看看影响的强弱。如果实在无法删除,可以使用变量变换,是数据的影响减弱,也可以考虑其他的回归模型。
图四、末端最高点也是一个强影响点,处理流程与图三类似。
如果数据不处理,使用线性回归拟合后的模型是一样的,因此在做回归前一定是需要看散点图的。
考察数据的分布,进行预处理
观察自变量取值是否过于极端。
初步观察变量的正态性
出观察可能的方差不齐等问题。
进行自变量的筛选,初步建立直线回归模型,尽量使用手工筛选。
残差分析
残差间是否独立
残差分布是否为正态
图一是残差随着y的增大在0附近波动,是一种比较理想的状态,正态性和方差齐性都还好。
图二,残差随着y的增大,波动开始增加,方差不齐的问题。
图三表示,在残差中存在一个自变量的平方项;找出高次项拟合正确的方程。
残差分析
强影响点的诊断
多重共线性问题的诊断