人大经济论坛 › 论坛 › 数据科学与人工智能 › 人工智能 › 深度学习 › 【人工智能学习】深度学习问题集锦

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 5 6 7 下一页

发帖

楼主: ada89k

8350 67

【人工智能学习】深度学习问题集锦 [推广有奖]

3关注
72粉丝

院士

99%

还不是VIP/贵宾

威望: 2 级
论坛币: 613777 个
通用积分: 16.9958
学术水平: 123 点
热心指数: 149 点
信用等级: 82 点
经验: 46289 点
帖子: 1667
精华: 3
在线时间: 2443 小时
注册时间: 2017-2-7
最后登录: 2024-4-22

楼主

ada89k

发表于 2018-4-2 15:35:06 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

【人工智能学习】深度学习问题集锦

1) 什么样的资料集不适合用深度学习?

答：数据集太小，数据样本不足时，深度学习相对其它机器学习算法，没有明显优势；
数据集没有局部相关特性，目前深度学习表现比较好的领域主要是图像／语音／自然语言处理等领域，这些领域的一个共性是局部相关性。图像中像素组成物体，语音信号中音位组合成单词，文本数据中单词组合成句子，这些特征元素的组合一旦被打乱，表示的含义同时也被改变。对于没有这样的局部相关性的数据集，不适于使用深度学习算法进行处理。

2) 何为共线性, 跟过拟合有啥关联?

答：共线性：多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。
共线性会造成冗余，导致过拟合。

解决方法：排除变量的相关性／加入权重正则。

3) 什么造成梯度消失问题?

答：神经网络的训练中，通过改变神经元的权重，使网络的输出值尽可能逼近标签以降低误差值，训练普遍使用BP算法，核心思想是，计算出输出与标签间的损失函数值，然后计算其相对于每个神经元的梯度，进行权值的迭代。

梯度消失会造成权值更新缓慢，模型训练难度增加。造成梯度消失的一个原因是，许多激活函数将输出值挤压在很小的区间内，在激活函数两端较大范围的定义域内梯度为0。造成学习停止

4) 在神经网络训练开始前，都要对输入数据做一个归一化处理，那么具体为什么需要归一化呢？归一化后有什么好处呢？

答：原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。

5)L2正则化项可以使权重衰减，为什么权重衰减可以防止overfitting？

答：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。

过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。
L1 惩罚项（权重绝对值）或 L2 惩罚项（权重平方）。

6)Dropout，它为什么有助于防止过拟合呢？

答：运用了dropout的训练过程，在训练开始时，随机地“删除”一半的隐层单元，视它们为不存在。相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”），每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响

7) 对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?

答：没有免费的午餐定理：

对于训练样本（黑点），不同的算法A/B在不同的测试样本（白点）中有不同的表现，这表示：对于一个学习算法A，若它在某些问题上比学习算法 B更好，则必然存在一些问题，在那里B比A好。也就是说：对于所有问题，无论学习算法A多聪明，学习算法 B多笨拙，它们的期望性能相同。

但是，没有免费午餐定力假设所有问题出现几率相同，实际应用中，不同的场景，会有不同的问题分布，所以，在优化算法时，针对具体问题进行分析，是算法优化的核心所在。

8) CNN有什么优缺点?

答：优点：共享卷积核、减少了网络自由参数的个数，对高维数据处理无压力；无需手动选取特征，训练好权重，即得特征。降低神经网络的复杂性。这种网络结构在有监督的方式下学习到了一些良好的性能：对平移、比例缩放、倾斜或其他形式的变形具有高度不变性。
缺点：需要调参，需要大量样本；

9) 梯度爆炸?

答：梯度爆炸就是由于初始化权值过大，前面层会比后面层变化的更快，就会导致权值越来越大，梯度爆炸的现象就发生了。

10) 如何解决梯度消失或者梯度爆炸呢？

答：用ReLU激活函数来替代sigmoid函数。重新设计层数更少的网络。

11) CNN问题?

答：
(1) 思想
　　改变全连接为局部连接，这是由于图片的特殊性造成的（图像的一部分的统计特性与其他部分是一样的），通过局部连接和参数共享大范围的减少参数值。可以通过使用多个filter来提取图片的不同特征（多卷积核）。　　

(2) filter尺寸的选择
　　通常尺寸多为奇数（1，3，5，7）　　

(3) 输出尺寸计算公式
　　输出尺寸=(N - F +padding*2)/stride + 1
　　步长可以自由选择通过补零的方式来实现连接。　

(4) pooling池化的作用
　　虽然通过.卷积的方式可以大范围的减少输出尺寸（特征数），但是依然很难计算而且很容易过拟合，所以依然利用图片的静态特性通过池化的方式进一步减少尺寸。　　

(5) 常用的几个模型，这个最好能记住模型大致的尺寸参数。

· LeNet5：第一个CNN

· AlexNet：引入了ReLU和dropout，引入数据增强、池化相互之间有覆盖，三个卷积一个最大池化+三个全连接层

· VGGNet：采用1*1和3*3的卷积核以及2*2的最大池化使得层数变得更深。常用VGGNet-16和VGGNet19

· Google Inception Net 我称为盗梦空间网络：这个在控制了计算量和参数量的同时，获得了比较好的分类性能，和上面相比有几个大的改进：

a. 去除了最后的全连接层，而是用一个全局的平均池化来取代它；

b. 引入InceptionModule，这是一个4个分支结合的结构。所有的分支都用到了1*1的卷积，这是因为1*1性价比很高，可以用很少的参数达到非线性和特征变换。

c. Inception V2第二版将所有的5*5变成2个3*3，而且提出来著名的Batch Normalization；

d. Inception V3第三版就更变态了，把较大的二维卷积拆成了两个较小的一维卷积，加速运算、减少过拟合，同时还更改了Inception Module的结构。

· 微软ResNet残差神经网络(Residual Neural Network)：

a. 引入高速公路结构，可以让神经网络变得非常深

b. ResNet第二个版本将ReLU激活函数变成y=x的线性函数

12) 什么是有监督学习和无监督学习?

答：监督学习（supervised learning）：通过已有的训练样本（即已知数据以及其对应的输出）来训练，从而得到一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的，那么这个最优模型也就具有了对未知数据进行分类的能力。

监督学习中只要输入样本集,机器就可以从中推演出制定目标变量的可能结果.如协同过滤推荐算法,通过对训练集进行监督学习,并对测试集进行预测,从而达到预测的目的.

无监督学习（unsupervised learning）：我们事先没有任何训练数据样本，需要直接对数据进行建模。

13) 激活函数的作用?

答：激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数，那么该网络仅能够表达线性映射，此时即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的。因此也可以认为，只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。

14) 梯度下降的方式? 如何选择？

答：批量梯度下降法（Batch Gradient Descent，简称BGD）是梯度下降法最原始的形式，它的具体思路是在更新每一参数时都使用所有的样本来进行更新，最终求解的是全局的最优解。

优点：全局最优解；易于并行实现；当损失函数达到最小值以后,能够保证此时计算出的梯度为0,换句话说,就是能够收敛.因此,使用BGD时不需要逐渐减小学习速率。

缺点：当样本数目很多时，训练过程会很慢。

随机梯度下降法（stochastic gradient descent，简称SGD）：它的具体思路是在更新每一参数时都使用一个样本来进行更新，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了。虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。

优点：训练速度快；对于很大的数据集,也能够以较快的速度收敛。

缺点：准确度下降，并不是全局最优；抽取样本，使得到的梯度有误差，因此学习速率需要逐渐减小，否则模型无法收敛；误差使梯度含有比较大的噪声,不能很好的反映真实梯度。
小批量梯度下降法（Mini-batch Gradient Descent，简称MBGD）：它的具体思路是在更新每一参数时都使用一部分样本来进行更新。克服BGD和SGD的缺点，又兼顾了两者的优点。

如果样本量比较小，采用批量梯度下降算法。如果样本太大，或者在线算法，使用随机梯度下降算法。在实际的一般情况下，采用小批量梯度下降算法。

15) 深度学习优化函数momentum 动量的作用和原理?

答：momentum是用来修改检索方向加快收敛速度的一种简单方法，一般的通过加入之前的梯度来修改更新梯度步长

16) 学习率的调整策略?

答：基于经验的手动调整。 通过尝试不同的固定学习率，如0.1, 0.01, 0.001等，观察迭代次数和loss的变化关系，找到loss下降最快关系对应的学习率。一般常用的学习率有0.00001，0.0001，0.001，0.003，0.01，0.03，0.1，0.3，1，3，10

根据数据集的大小来选择合适的学习率。当使用平方误差和作为成本函数时，随着数据量的增多，学习率应该被设置为相应更小的值（从梯度下降算法的原理可以分析得出）。另一种方法就是，选择不受数据集大小影响的成本函数-均值平方差函数。

在不同的迭代中选择不同的学习率。即，在最初的迭代中，学习率可以大一些，快接近最优解时，学习率小一些。那么如何知道每一步迭代中离最优值有多远，是否接近最优解呢？在每次迭代后，使用估计的模型的参数来查看误差函数的值，如果相对于上一次迭代，错误率减少了，就可以增大学习率，，以5%的幅度；如果相对于上一次迭代，错误率增大了，那么应该重新设置上一轮迭代的值，并且减少学习率到之前的50%。因此，这是一种学习率自适应调节的方法。

17) 批尺寸选择原则？

答：batch size也就是块大小，代表着每一个mini batch中有多少个样本。一般设置为2的n次方。例如64,128,512,1024. 一般不会超过这个范围。不能太大，因为太大了会无限接近full batch的行为，速度会慢。也不能太小，太小了以后可能算法永远不会收敛。

如果数据集比较小，完全可以采用全数据集（ Full Batch Learning ）的形式。由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。
在合理范围内，增大 Batch_Size 有何好处？

· 内存利用率提高了，大矩阵乘法的并行化效率提高。

· 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。

· 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。

盲目增大Batch_Size 有何坏处？

· 内存利用率提高了，但是内存容量可能撑不住了。

· 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。

· Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

每次只训练一个样本，即 Batch_Size = 1会怎样？

每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

18) 周期（Epochs）选择原则？

答：选择更多的周期将显示出更高的网络准确性，然而，网络融合也需要更长的时间。另外，必须注意，如果周期数太高，网络可能会过度拟合。

CDA为大家推荐人工智能工程师就业班，课程以实战案例出发，从自然语言处理、图像识别、语音识别、专家系统等多种典型应用入手，使CDA人工智能工程师就业班课程更能符合就业要求、企业要求。

我们的教学和服务，将助您走上IT行业就业金字塔的顶端岗位！

了解详情：http://www.cda.cn/kecheng/58.html
咨询电话：18510169390 赵老师

扫描下方二维码也可以了解详情

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏17 回帖

关键词：人工智能深度学习深度学习问题梯度消失神经网络训练

本帖被以下文库推荐

· 深度學習(DEEP LEARNING)|主题: 739, 订阅: 91

使用道具举报

沙发

虎虎856

发表于 2018-4-2 15:56:08 |只看作者 |坛友微信交流群

回帖奖励 +4

谢谢分享

使用道具举报

藤椅

淖尔封

发表于 2018-4-2 16:47:07 |只看作者 |坛友微信交流群

回帖奖励 +4

谢谢分享~

使用道具举报

板凳

脑仁疼

发表于 2018-4-2 16:52:34 |只看作者 |坛友微信交流群

回帖奖励 +4

谢谢~好像有点思路了

使用道具举报

报纸

安格鸥

发表于 2018-4-2 17:10:28 |只看作者 |坛友微信交流群

回帖奖励 +4

谢谢分享~

使用道具举报

地板

厄尔蒙加

发表于 2018-4-2 17:22:55 |只看作者 |坛友微信交流群

回帖奖励 +4

谢谢分享~

使用道具举报

7楼

Edwardu 发表于 2018-4-2 18:04:06 |只看作者 |坛友微信交流群

回帖奖励 +4

机器学习好

使用道具举报

8楼

fengyg

发表于 2018-4-2 18:12:52 |只看作者 |坛友微信交流群

回帖奖励 +4

kankan

使用道具举报

9楼

psqnk1992 发表于 2018-4-2 18:48:26 |只看作者 |坛友微信交流群

回帖奖励 +4

非常好的资料。

使用道具举报

10楼

slowry 发表于 2018-4-2 19:48:32 |只看作者 |坛友微信交流群

回帖奖励 +4

使用道具举报

返回列表

12 3 4 5 6 7 下一页

发帖

本版微信群

加JingGuanBbs
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

【人工智能学习】深度学习问题集锦 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

回帖奖励 +4

本版微信群

扫码加我拉你入群