「少数派」的深度学习成长史

编者按：本文来自于微信公众号 “KnowingAI 知智”（微信公众号：Knowing_AI），动点科技经授权发布。

「我的 CPU 是一个神经网络处理器，一个会学习的计算机。」
——阿诺德·施瓦辛格《终结者 1》, 1984

1971 年，43 岁的康奈尔航空实验室心理学家 Frank Rosenblatt 在美国 Chesapeake Bay 的一次航海事故中离世，留下了一个老鼠脑细胞移植的未尽实验。

对这位上世纪 50 年代大脑模仿实验先驱的评价，外界一直褒贬不一。最让人诟病的是，在 1965 年提出了感知机 (Perceptron) 的概念后，又与曾经的高中同学 Marvin Minsky（后被誉为「人工智能之父」）一起对感知机的鼓吹者进行抨击。

感知机想法的提出源自于加拿大心理学家 Donald O. Hebb 的理论：可以通过神经元间的连接创造一台能够识别物体的机器。这一想法的提出开启了「神经网络」学派的先河，但 Rosenblatt 等人随后的抨击也险些将还在萌芽阶段的「神经网络」研究扼杀在摇篮。

Frank Rosenblatt

Frank Rosenblatt 想不到的是，一位美国心理学家对一位加拿大心理学家想法的改造会影响到日后深度学习及人工智能的发展。巧合的是，推动这一系列发展的人也是位心理学专家，来自英国的 Geoffrey Hinton。

少数派们的秘密研究

Geoffrey Hinton 年少时就深深着迷于大脑的奥秘，为了真正理解大脑如何工作，Hinton 在大学期间横跨了心理学、化学、物理、生物学和哲学等学科的研究，并在当时唯一一个拥有人工智能专业的爱丁堡大学开始了自己的研究生项目。

但当时饱受争议的「神经网络」显然不能出现在他的研究论文中，而志同道合的研究者也寥寥无几。处于秘密研究中的 Geoffrey Hinton 还在不断尝试让电脑识别出图片里的内容，直到他遇见了 Terrence J. Sejnowski。

二人在 1979 年 Hinton 组织的一次会议上结识，并在 1984 年共同发明了「玻尔兹曼机」(Boltzmann machine，BM)，这是最早的生成式随机神经网络之一。由于 80 年代初计算力的限制，他们的研究还远未达到预期，但彼时被当作异类的二位却一直坚持至今。在过去的三十多年里，Sejnowski 每隔一段时间都会接到 Hinton 关于「我终于知道大脑是如何工作了」的电话，这也成为了他们共同的默契。

年轻时的 Sejnowski（左）和 Hinton（右）

在 Hinton 和 Sejnowski 提出了「玻尔兹曼机」后没多久，两位分别来自法国和加拿大的年轻人就被「神经网络」的想法所折服。还在学习专家系统课程的 Yoshua Bengio 看到 Hinton 的论文后激动不已，而远在巴黎就读博士的 Yann LeCun 也立志加入 Hinton 的「神经网络」秘密小组。二人后来顺利在贝尔实验室汇合，并为「神经网络」思想的复兴做出了突出的贡献。

在很长一段时间被当作「异类」的他们离被称为「人工智能三驾马车」还有二十余年。

「神经网络」的再次流行与泯灭

就在「玻尔兹曼机」被提出后没多久，关于「神经网络」的讨论又一次吸引了主流的目光，研究者们甚至重返《纽约时报》的版面。就连在 1984 年上映的《终结者 1》里，机器人终结者的扮演者阿诺德·施瓦辛格也有一句台词：「我的 CPU 是一个神经网络处理器，一个会学习的计算机。」

但主流的热情没有持续太久，LeCun 也曾抱怨，媒体的过度追捧和计算力的缺乏过早地透支了人们对「神经网络」的信任。而在实际的研究中，除了计算力，不可控的结果也让工程师们无法接受。

「如果一个神经网络失败了，人们也未必清楚其中原因，人类大脑也是如此。工程师讨厌这种变化无常。他们说，这太复杂了，除非有人相信魔法。相反，程序员倾向选择那些可预测的、和反向传播表现差不多的学习算法。」

这种理想与现实的落差也让 Hinton 的重要研究伙伴 David Rumelhart（二人一起提出「反向传播」算法）开始了对「神经网络」的自我怀疑，几乎重蹈了十余年前 Frank Rosenblatt 对感知机质疑的覆辙。

连前辈们都开始质疑自己的理论，但 Yann LeCun 还是执拗地坚持着自己的判断。1988 年，想要将自己的想法付诸实践的 LeCun 加入了贝尔实验室。在那里，他遇到了多年的合作伙伴 Vladimir Vapnik 和 Yoshua Bengio。前者曾提出了统计机器学派所热衷的 SVM（支持向量机）理论，并于日后成为了 LeCun 在 Facebook 人工智能研究院的同事；而后者则变成了 LeCun 的长期战友。

Bengio（左）和 LeCun（右）

1996 年，LeCun 就任贝尔实验室图像处理研究部的主任，两年后，他发明了「LeNet5」，这也标志着 CNN（Convolutional Neural Network，卷积神经网络）的真正面世。这个模仿视觉皮层建立起的神经网络能够读取美国 20% 的银行支票，但「神经网络」距离真正的流行还有很远。

没有 GPU 的加持，「神经网络」很难真正通过模拟人类大脑的复杂结构进行学习，当时大部分「神经网络」算法所能达到的结果，以 SVM 为代表的统计机器学习方法都能达到甚至是超过。

Youshua Bengio 就曾经抱怨：「在主流机器学习会议上，很难发表任何有关神经网络的内容。在过去的十年中，神经网络走完了从流行到泯灭的过程。」

有一句著名的关于「神经网络」论文拒稿评论：

「The biggest issue with this paper is that it relies on neural networks.」（这篇论文最大的问题，就是它使用了神经网络）。

救命的 35 万美元与又一次低谷

自 1965 年 HMM（隐马尔科夫模型）被提出开始，拥有严谨推理证明逻辑的统计预测学派就开始占据着机器学习研究的主流，如今以深度学习为主流代表的神经网络学派在很长一段时间只属于少数人的自证游戏。而这两个学派的代表正是 Michael I. Jordan 和 Geoffrey Hinton。

如今桃李满天下的 Michael I. Jordan 在早年间还是神经网络学派的代表，1990 年提出的 RNN（循环神经网络）的影响和应用持续至今。但没想到的是同样是本科心理学，后续转战「神经网络」的 Michael I. Jordan 却被 Hinton 以「发表论文太少」为由拒绝其成为门下博士生。而在被拒之后，Jordan 也由神经网络学派方向转到了统计预测学派。

Michael I. Jordan

虽然以 Yoshua Bengio 和吴恩达为代表的「Jordan 得意门生」日后分别转向了深度学习，但不可否认的是，由于彼时计算力的限制和过高的预期，「神经网络」的发展迎来了又一次低潮。不过，Hinton 等人却没有停下脚步。1986 年，Hinton 和 David Rumelhart 等人提出了「反向传播」（Back Propagation，BP）算法，这个算法也成为了日后神经网络研究的基石。

由于担心论文不被接收，在得知英国知名心理学家 Stuart Sutherland 可能是 Nature 杂志的一名评审后，Hinton 专门跑去和他聊了很久，并向他详细解释了「反向传播」究竟是什么。

「这给 Stuart Sutherland 留下了非常深刻的印象，我猜这是论文被 Nature 接收的一个原因。」

年轻时的 Hinton（右）

可惜的是，由于不被主流认可，Hinton 很快失去了他在英国大学里的工作。正当他苦于没有研究经费支撑时，一通戏剧性的电话改变了他个人以及「神经网络」研究的命运。

「Hi Hinton，你可能不知道我是谁，但我认识你。我们想投资一些有远见但现时还不可行的项目，我看了你的论文，很感兴趣，也想资助你接下来的研究。」

这位自称 Smith 的神秘人为 Hinton 提供了救命的 35 万美金。后来他才知道，Smith 所代表的是美国一家以军事为主的综合性战略研究机构——兰德公司，他们的背后正是美国国防部。但作为一名社会主义者，Hinton 显然是与美国政府格格不入的。很快，Hinton 终止了合作，并接受了加拿大高等研究院（CIFAR）的邀请，从多伦多大学计算机专业的课程教授开始，为 CIFAR 提供计算机和大脑学习项目研究。

从此，加拿大便成为了 Hinton 的长期驻地。尽管面临着长期的低谷和质疑，但 Hinton 和加拿大的研究社区依旧成为了「神经网络」的不渝的追随者。

多年以后，一次密谋挽回了「神经网络」长期的尴尬命运。

三个人的「深度学习阴谋」

直到现在，LeCun 都认为 2003 年是深度学习研究的转折年份。在那一年，已加入纽约大学任职的他与 Hinton 和 Bengio 共同成立了一个非正式联盟用来复兴「神经网络」。

「我们把它叫作 Deep Learning Conspiracy（深度学习阴谋）。」

实际上，这是一个名为 Neural Computation and Adaptive Perception（NCAP，神经计算和自适应感知）的项目。靠着 Hinton、LeCun、Bengio 和 CIFAR 的资金支持，三人秘密地开发了多层神经网络，在已有强大计算力的情况下通过更大的数据集来对计算机进行训练。这一切都是为了证明「神经网络」是有用的，这是三人长达二十年的坚持，而 CIFAR 也成为了当时世界上唯一支持神经网络研究的机构。

在这个三人小组组建后不久，Hinton 便将「神经网络」更名为「深度学习」（Deep Learning）。2006 年，Hinton 和他的学生发表了一篇关于「深度信念网络」的文章，这标志着如今被广泛使用的「深度学习」正式登上历史舞台。

尽管改了名字，但学术界对于每隔一段时间便「复苏」的「神经网络」仍然嗤之以鼻。不过与往年不同的是，如今的「神经网络」已经有了大量计算力和数据集的支持。

三十年河东，三十年河西。小众的密谋正准备迎接大众的狂欢。

2007 年，在 Hinton 60 岁生日当天，他在机器学习顶级会议「NIPS」上发起了一场关于「深度学习」的研讨会，组织者除了他的战友 LeCun 和 Bengio，还有后来苹果公司的首任人工智能负责人 Ruslan Salakhutdinov。

两年后，ICML（国际机器学习大会）也在 Hinton 和 Bengio 的地盘（加拿大）举办，组织者除了上述几位，还有一位来自 NEC Lab 的主管，后百度 IDL 常务副院长、地平线联合创始人——余凯。

2010 年 Hinton 的实验室证明了 DNN（深度神经网络）在语音识别领域的优秀结果后，大公司们也开始了他们的行动。除了将「深度学习」引入自家语音产品线，也开启了「深度学习」人才的争夺战。时任斯坦福大学教授的吴恩达便是在此时加入了 Google 的 XLab；而在这之前，他也是前文所提到 NCAP 的重要成员。

三个人的努力似乎初见成效，但真正的转折与突破出现在 2012 年。

质疑、转折与改变

2012 年，在计算机视觉领域的知名华人科学家朱松纯担任 CVPR 大会主席期间，LeCun 曾给他写信抱怨，自己的论文报告了很好的实验结果，但是审稿的三个人都认为论文说不清楚到底为什么有这个结果，于是便拒稿。LeCun 一气之下便声明再也不给 CVPR 投稿，还把审稿意见挂在网上以示抗议，并指责论文评审人员「无知」和「有偏见」。

其后，LeCun 和 Bengio 共同创办了 ICLR（International Conference on Learning Representations，国际学习表征会议），希望为「深度学习」提供一个专业化的交流平台。

同年，Hinton 和学生参加了 ImageNet。Hinton 和他的团队在五次尝试之内，以 85% 的准确度成功地识别出图像中的物体获得比赛冠军，比第二名高出了 10 个百分点。随后，深度学习算法开始成为人工智能研究的主流；而 Hinton 与他的学生 Alex Krizhevsky 和 Ilya Sutskever 创立的 DNNresearch 公司迅速被 Google 以 500 万美金的价格收购，Hinton 也开始了在 Google Brain 的研究。

LeCun 曾回忆起 Hinton 团队夺冠后那些曾对「神经网络」不屑一顾的专家们的态度转变，「好吧，现在我们认同你，你们赢了。」

一年后，在 NIPS 一场关于「深度学习」的研讨会上，，Facebook 创始人 Mark Zuckerberg 意外地来到了现场并宣布 Yann LeCun 即将加入 FAIR（Facebook 人工智能研究院）。对于深度学习社区来说，这无疑是一剂强心剂。而在本次大会的 workshop 中，一家来自英国的创业公司展示了他们一个模拟潜水艇躲炸弹的 2D 小游戏，他们就是后来被 Google 收购并研发出 AlphaGo 的 DeepMind。

Zuckerberg 和 LeCun

别忘了我们的老朋友，和 Hinton 一起提出最早生成式随机神经网络之一「玻尔兹曼机」的 Terry Sejnowski 在 2013 年也开始帮助奥巴马实施其斥资 1 亿美元的「脑计划」。

2015 年 5 月，Hinton、LeCun 和 Bengio 联名在 Nature 上发表了一篇关于深度学习综述的论文，长达二十余年的坚守终于让「神经网络」的研究迎来属于它的黄金时代，而后面的故事我们也都耳熟能详。

左起，Bengio、LeCun、Hinton

2016 年，曾与 Rosenblatt 一起抨击感知机的人工智能先驱 Marvin Minsky 去世。而在「深度学习」开始大行其道之时，Hinton 又「不合时宜」地站出来质疑他自己曾提出的「反向传播」理论。但与 Rosenblatt 不同的是，Hinton 依然在试图通过新的理论来搭建真正强大的「神经网络」。

所有人都在为即将而来的转折而改变，而真正坚守的却是那些孤独的少数派。

TAGS
AI
深度学习

《NodeBang》是动点科技的“朋友圈”，面向内容优质的媒体、自媒体等平台，聚合传播最值得关注的科技内容，更好地配置内容分发渠道，挖掘媒体联盟的原生内容创造力，为读者和内容方创造最大的价值。接洽热线：[email protected]