1 前言
除了前文提到的线性回归与多项式回归外,还有很多其它的回归方法,例如本文将要介绍的:岭回归、LASSO回归。
不过它们并没有完全创建一个新的算法进行回归,而是对我们已经使用过的最小二乘法进行某些方面的改进。
由于在上一章节中我们认识到、多项式回归其实可以看作一种特殊的线性回归形式,依旧可以使用线性回归的求解方式进行求解,因此这两种算法对多项式回归求解也是有效的。
2 最小二乘法的局限性
既然有新算法想要改进最小二乘法,那么说明这个最小二乘法肯定有某些地方不太好。
所以我们先来了解一下最小二乘法的局限性,然后再看看新的两种算法做出了哪些改进。
首先在线性回归中,我们需要求解下面这个式子:
而最小二乘法将上面的式子改写为了:
目的变成了求解F的最小值,前面章节中我们将其改写为了矩阵,这里我们可以将其改写为向量:
式子中右下标的2代表 2-范数,是线性代数中常用的向量范数之一,它的含义是定义向量所有分量的平方和的平方根,再加上右上角的平方,最终结果就是平方和,和上面的最小二乘法表达的意思一样。
其中Y、X是所有、 的集合的列向量,同时根据前文第一章得到的结论公式:
注意这个结论公式成立的条件是 不能为0。
而问题是,当多个特征向量数值高度相关时,会导致这个结果无限趋近于0,从而导致拟合结果不稳定,间接导致过拟合风险的发生。
比如一个简单的例子:
这个例子中相当于有两个特征(两列)、三条数据(三行)。
可以看到,此时这两个特征数值高度相关,第二个特征值基本就是第一个特征值的两倍。
那么将其代入前面的公式: