首先给出线性回归的问题描述:

设\(X^T = (X_1,X_2,\cdots,X_p),\theta^T = (\theta_1,\theta_2,\cdots,\theta_p)\),我们希望找到这样一个回归函数:

\[h_\theta(X) = X^T\theta\]

我们的loss function构造如下:

\[J(\theta) = \frac{1}{2}(h_\theta(X) - Y)^T(h_\theta(X) - Y)\]

要使得loss function最小,我们可以直接得到一个closed solution或者采用基于梯度的优化算法。下面直接给出在\(L_2\) regularizer和没有regularizer的情况下对应的\(\theta\):

有正则项+Gradient: \(\theta = \theta - (\beta X(X^T\theta - Y)+\alpha\theta)\)

有正则项+closed solution: \(\theta = (XX^T+\alpha E)^{-1}XY\)

无正则项+Gradient:\(\theta = \theta - \beta X(X^T\theta-Y)\)

无正则项+closed solution:\(\theta = (XX^T)^{-1}XY\)

假设使用\(L_1\)范数的情况呢?在这种情况下,我们依然可以得到closed solution,但是由于\(L_1\)范数在零点不可导,故不能使用基于梯度的方法。那么解决这类问题的典型方法是坐标下降算法和最小角回归算法。坐标下降算法和最小角回归不是只能用来解决LASSO回归问题,例如最小角回归还可以结合混合高斯做聚类。

最小角回归是前向选择回归算法和前向逐段回归算法的结合。这部分内容结合三张图来说明:

forward selection:

1

在上图中,\(X_1,X_2,X_3\)代表训练样本的一个feature,\(Y\)是目标向量,从未被选择的feature集合中,开始选择和Y的距离最近的feature,在选定的feature上做Y的投影向量,然后继续从未被选择过的feature集合中,选择和(Y-Y在选定feature上的投影)向量距离最近的向量,直到所有feature都被选择过或者(Y-Y在选定feature上的投影)为0。这里(Y-Y在选定feature上的投影)代表残差,由于在选择feature的时候,采用比较暴力的方式(投影相比于下个算法的伸缩),故结果精度较差。

forward stagewise:

2

该算法和上述算法不同的地方在于,每次选择完距离最近的feature向量后,不是做投影,而是沿着选定feature的方向做伸缩后得到一个新的向量,然后重新选择feature向量,这样,已经被选择过的向量可能重新被选择。对于与上述算法,该算法精度较高但是迭代次数较多。

lars:

3

lars算法是结合上述两个算法的各自优点以达到快速,精度高的目的,具体过程不在描述,可参考给出的文章,上图是自己画的一个三维场景下的算法过程(似乎网友贡献的都是二维的,论文中的图也是二维的),可以帮助理解。

思考总结: 针对上述算法,一个很自然的想法是做数据并行,在选择距离最近feature的时候,可以并行的处理这个问题。但是,更进一步的考虑是,能够将feature进行分组,然后各组同时进行,最后结果汇总,就是一个分治的过程,如果这样得到的结果和期望结果gap比较大,存不存在一个可接受gap的松弛算法?

参考

1.《LEAST ANGLE REGRESSION》

这是一篇原始论文,大四做毕设的时候第一次接触到,还没有系统的读过。

2.LASSO回归网友笔记版

3.向量投影

我的一个理学院的朋友和他聊问题的时候,竟然要翻下这个概念,被打脸,囧。

4.郝智恒在统计之都的几篇文章