作者 | Venkat Raman

编译 | Anna

看到这个问题,你最先想到的答案是什么?随机森林(random forest)、SVM(支持向量机)、K means、Knn……甚至是深度学习和它的其他变体?那么如果我告诉你,答案应该是回归算法(Regression),你又会怎么想?

 

 

你可能会觉得好笑——要预测那么久以后的事情,谈何容易?何况这可是100年后的事情,太不现实了吧?

 

 

是什么让我相信“回归”能一直用到2118年?

答案就是林迪效应(Lindy Effect)。那么什么是林迪效应呢?

维基百科对林迪效应的定义如下:林迪效应认为,对于不会自然消亡的事物,如一项技术或一个想法,其预期寿命与其当前的生命成正比;也即,只要这一事物多存活一天,就意味着其预期生寿命会更长一些。

而我最喜欢的作家Nassim Taleb在其著作《反脆弱:从不确定性中获益》中,则如此定义林迪效应:

如果一本书过去40年都在持续印制出版,那么我可以预期它还会再印40年;但是,重点来了,如果这本书能在市场上再存活10年,那么我就能预期这本书在其50年寿命的基础上,还能再存活50年。这条定理解释了为什么我们身边那些存在已久的事物不会像人一样“变老”,而是以一种越活越久的形式“变老”。年复一年,只要这一事物不灭亡,其预期寿命就会在当前的寿命基础上翻一番。这一定理其实可以理解成衡量事物鲁棒性的一个指标——其鲁棒性与寿命成正比!

为什么“回归”能存活那么久?

根据林迪效应,回归算法之所以能存活到100年后,是因为其已经存活了不止一个世纪了。回归(最小二乘法)的概念最早是由Carl Friedrich Gauss和Adrien-Marie Legendre在19世纪提出的,当时被用来计算行星及其他天气绕着太阳运动的轨道。

而“回归”这一术语则是由Francis Galton创造的。当时Galton发现高个的父亲容易生出较矮的儿子,而矮个的父亲容易生出较高的儿子,因此用“回归”来描述这一发现。

显而易见,“回归”已经存在了超过200年了!根据林迪效应,它应该能再用200年。所以说回归算法能一直用到2118年甚至还有点保守了。

 

 

“回归”如此长寿,背后的秘密是什么?

我们首先来看一份Kdnuggets在2016年做的调查报告。

 

 

Kdnuggets: 数据科学家最常用的10种算法

在2011年的调查报告中,回归算法排在第二;五年后,回归算法则登顶榜首。根据林迪效应,我们可以认为五年后的回归算法比五年前“更加长生不老”了。

回归算法仍旧是使用最广泛的Machine Learning算法之一,其优点在于:

  • 简单

  • 易懂

  • 有效

回归的有效性

回归的有效性使其在各个领域都得以应用,其带来的益处是显而易见的。比方说,Marketing中常用的市场营销组合模型(Market Mix Modeling,简称MMM),其背后的驱动力就是回归。市场营销组合模型至今仍被广泛应用,许多快消公司都很信赖其结果。在其他领域,回归的表现也同样突出。

那么神经网络及其变体呢?它们也能用到2118年吗?

目前看来,林迪效应对于神经网络、或者说AI,显得并不太友好。神经网络技术在20世纪时就曾遭遇过所谓的“人工智能的寒冬”,其长寿性也因此遭到打击。类似这样的寿命“断裂”对一项技术、一个算法来说,并不是什么好征兆。不过从好的一面来看,AI技术确实在过去十年内不断地进步、壮大了起来。我自己虽然是个门外汉,但也不由得被AI那些令人眼花缭乱的突破所吸引。所以保守一点来说,我的预测是神经网络及其变体会再存活个10到20年,前提是Elon Musk的“奇点理论”不会提前带来另一场AI寒冬。

是什么阻碍了机器学习突破林迪效应?

滥用机器学习(overkill):机器学习的错误应用或滥用,就会阻碍其突破林迪效应。明明用很简单的基本方法就可以解决问题,却非要用机器学习算法,这种情况我自己也碰到过很多次。Rama Ramkrishnan先生在它的文章中就精准地描述了机器学习的滥用。(见文末参考文献)

数据科学近来的大红大紫,可以说反而加剧了机器学习的滥用。机器学习算法仿佛成了数据科学家们手中的一把万能榔头,而一切问题好似都成了突起的钉子,总需要锤那么一下。总有一天,机器算法的错用、滥用会让人们彻底醒悟,发现原来它并没有那么大的价值。于是,机器学习算法就这样自行招来了“人工智能的寒冬”。但就现在而言,回归应该还会是笑到最后的那一个。

参考文献:

https://towardsdatascience.com/first-create-a-common-sense-baseline-e66dbf8a8a47