图文详情

相信你一定听说过“深度学习”，它总是和人工智能一同出现，好像各种难以置信的AI成果都因为它。那么，“深度学习”到底是何方神圣？它与AI有什么关系？

改编一句台词，或许可以这样说：AI有那么多分支，其中一个叫机器学习；机器学习有那么多分支，历史偏偏选中了深度学习。

什么是机器学习？

以图像识别为例，把许多张猫和狗的图片喂给电脑，希望它像人一样正确判断出是猫还是狗。这种人类易于完成的任务由于难以形式化、逻辑化，需要经验，是计算机很难做到的。

现在，我们在猫的图片上标注“猫”，在狗的图片上标注“狗”，我们就拥有了一批“已标注数据”。我们希望机器能从这些数据中自己找到规律，总结出区分猫狗图片的办法，这就是机器学习的思想。

我们把喂给计算机的东西叫做“输入”，计算机给出的结果叫“输出”，那么，机器学习就是要让计算机找到输入和输出之间的一座最佳桥梁，从而对于输入有较准确的输出，这座桥梁可以看成是一个“函数”。

机器学习除了可以学习已标注数据（即“有监督学习”），还可以学习没有标注的数据（即“无监督学习”），比如聚类，但我们先不谈这个。

机器学习有很多种算法，其中对深度学习有重要意义的是“人工神经网络”，其典型例子是“多层感知机”（MLP）。人工神经网络的灵感来自于人脑神经元，但它与复杂的人类大脑仍有很多不同。

什么是人工神经网络？

解决复杂问题往往需要复杂的、非线性的函数（函数图像不是直线），简单的线性函数（函数图像为直线）最容易运用，却不能直接解决复杂问题，能不能将复杂的、非线性的函数用线性函数表达呢？

人工神经网络与深度学习有同样的思想：复杂函数可以用多个简单函数表示，是简单函数套简单函数套……一直套多个，从而化繁为简，由简至繁。

但是线性函数套线性函数，总归是线性的，所以最后要套上非线性函数，再输出。

以单个神经元为例，一个神经元接收来自多个方向的信号，每个信号都是一个输入x，但这一串x不是“平等”的，而是有的重要，有的不重要。这就像有一大叠文件，不能一股脑儿都给老板，要分轻重缓急，重要的放上面，不重要的放下面。我们给每个x都乘上一个数w，重要的x就乘大些的w，不重要的x就乘小些的。把这一串乘积全加起来，重要的x就在总和中占据重要地位，不重要的则相反。这一串w叫“权重”。

对神经元来说，不是所有信号都会通过神经细胞传输到后面的，而是要达到一定的“阀值”才可以通过，信号就像一个跳高运动员，跳过了预定高度就晋级，否则止步。

所以，我们设定阀值b，让w乘x乘积的总和减去b，如果差大于零，则通过，否则输出零。

这个让信号“跳高”的函数叫“激活函数”，上面其实是举ReLU函数的例子，此外还有其他的激活函数。由于此前对x的操作都是线性的，再进行线性操作得到的还是x的线性函数，而不是我们想要的非线性函数，因此，激活函数一般是非线性的。

一般来说，人工神经网络会使用多个神经元完成任务，神经元会一层一层排列。一串x所处的层叫输入层，最后得到分类结果的层，叫输出层。对于已标注数据，我们只能知道输入层、输出层是什么样的，但在人工设计了需要多少层、每层几个神经元之后，中间各层的神经元上，w、b这些参数都要机器去学出最优值，我们一开始并不知道最终会是什么，于是这些神经元所在的层统称隐藏层。

一串输入x在经过一层神经元之后，终于鱼跃龙门，到达了下一层。人工神经网络要求神经元不可跨层连接，不可以让x在几个神经元间走循环路。

那么，设计好人工神经网络之后，怎么让机器学会区分猫狗呢？

把所有已标注图片分为两类，大类叫“训练集”，小类叫“测试集”。训练集用来学习，测试集用来考试。如果学习之后，面对没学过的数据（没做过的题），准确率在要求范围内（考得好），那么就算学习成功。

刚才说了，从输入到输出，每个神经元有一串w，一个b，整个网络就有几串w，一串b,这些参数不靠人教，要机器根据已标注数据学出来。学习的过程，就是求出最佳参数的过程，从而得到最好的函数，也就是个优化问题，求最值。主流方法是梯度下降法，大概意思是：二元函数好比凹凸不平的跳跳床，如果在床的某个点上，跳跳床凹得最深，这个点就是我们要找的最小值点。从某个点开始，沿着一个方向移动，在这个方向上床变深的速度最快，我们就会找到深凹的点，当有几个深凹点时，经过比较，可求出最小值。

人工神经网络在图像识别方面达到了一定水平，但准确率一直难以突破，直到深度学习出现。

什么是深度学习？

深度学习是机器学习的一种，但在图像、语音识别方面，准确率比其他机器学习算法高许多。它包括多种算法，如卷积神经网络、循环神经网络，本文主要谈深度学习算法的共同特性。

深度学习其实是对人工神经网络的继承和超越，它主要改进了两个方面：1.设置更多的隐藏层。2.让机器学习特征，而非人工设计。

在人工神经网络时代，如果想要获得较好的结果，则需提供大量数据进行训练，并用多层网络解决复杂问题，但当时的数据量、算力都无法支撑。后来，海量数据出现，算力大幅提升，才为多层网络的训练提供了可能。

此外，训练多层神经网络还要解决“梯度消失”问题，大致是指原有算法中从后向前对多层神经网络运用梯度下降法，会使前面的层难以更新参数，降低准确率。通过换用更好的激活函数等方法，人们终于解决了这个问题。

因此有人说，第三次人工智能浪潮是由算法、算力、数据三驾马车拉动的。

深度学习对以往机器学习最重要的超越，也是最重要的特性，是学习特征。在其他机器学习中，训练时输入的一串x，其实是特定领域专家设计的“特征”，而不是“原图”。比如要把西瓜分成“好瓜”“坏瓜”，则需了解相关知识的人告诉我们：要看色泽、根蒂、敲声，而这些就是西瓜的“特征”。机器通过对特征的描述（如：色泽：青绿；根蒂：蜷缩；敲声：沉浊），和标注的结果（好瓜），能学出怎样的瓜属于“好瓜”。特征的归纳对学习的效果有重要影响。

人工设计特征的不足在于：一、模型的框架难以通用，换个问题就要重新设计特征。二、解决复杂问题往往需要更多特征，特征多到一定程度时，训练数据量要极大增加才能保证准确率，而原有方法无法应对，这被称为“维数灾难”。

由机器提取特征，不仅是解决这些问题的重要方法，也是机器全自动分析数据的大势所趋。

2006年，辛顿等人提出了一种实现机器提取特征的方法，但更具实用性的例子是卷积神经网络（CNN）。基于CNN的算法达到的图像识别准确率已经超越了人类平均水平。在CNN中，用于提取特征的是“卷积”过程。一张图片在计算机眼中，其实是一张数字表，每个数字就是一个像素。数学上，“卷积”和神经元中对一串x和w的乘积求和类似。我们把图片分成很多小块，每块的全部像素是一串x，我们再给出一串w，然后每个x与w对应相乘，对这串乘积求和，替换原来的小块数表。对于图片的所有小块，我们都用同一串w进行同样操作。此时w叫卷积核。当我们对所有小块都这样操作之后，图片的尺寸缩小了，像素也被聚合了，再进行下一次卷积（本例对应单通道图片的简单情形）。简单说，卷积层的作用就是“聚沙成塔”。这一方法的灵感来自人脑对图片的感知过程，其实是从边缘到局部再到整体的，每一次卷积，就使散点聚为边缘，再聚为形状，最后，整张图片的特征就被勾勒出来了。

可以发现，卷积的核心在于卷积核的选取，采用梯度下降等方法，可以找出最好的卷积核，从而实现机器自主提取特征。

深度学习的未解之谜？

深度学习以其通用的框架和多种实用的算法，让机器直接从经验中学出规律，在图像识别、自然语言处理等方面取得了很多成果，但以下几个问题不容忽视：

1. 鲁棒性。如果对图像施加一些干扰，比如把猪的图片叠加一些黑白噪声点，人类看不出任何差别，却会导致算法误判。这实际上是抗干扰能力，不少科学家正在解决这一问题。

2. 可解释性。机器直接从数据学出规律，并以此进行新的决策。但它为什么会得出这样的结论，训练数据和规律之间有何逻辑联系，目前还不太清楚，因而被称为“黑箱”。

3. 对数据量和训练次数的依赖。当已标注数据较少、训练次数不多时，深度学习的效果不佳。在硬件算力增长速度下降（摩尔定律近期不断修改）、部分领域已标注数据不足的情况下，摆脱这一限制或成重要方向，目前已有相关成果，如迁移学习。

深度学习深几许？今年花胜去年红。

已知尽处是春山，行人更在春山外！

来源: 第四届CCF科普内容优秀作品

内容资源由项目单位提供

深度学习深几许？

科普中国系列品牌网站

入驻科普号

合作机构