机器学习测试题-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 会计>>

会计库

>>

机器学习测试题

机器学习测试题

发布:数据分析闯天下 | 分类:会计库

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

人工智能与大数据一直助力着科技发展,新兴的机器学习正推动着各领域的进步。如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视的速度闯入我们的生活。以下测试题可 ...
扫码加入统计交流群



人工智能与大数据一直助力着科技发展,新兴的机器学习正推动着各领域的进步。如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视的速度闯入我们的生活。以下测试题可以粗略的检测你对机器学习的了解和掌握程度。

1.以下哪一种方法最适合在n(n>1)维空间中做异常点检测。

A 正态分布图
B 盒图
C 马氏距离
D 散点图
答案:C
马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法,以卡方分布为基础,表示数据的协方差距离。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是关联的)。因此马氏距离常用于多元异常值检测。

2. 逻辑回归与多元回归分析有哪些不同?

A. 逻辑回归预测某事件发生的概率
B. 逻辑回归有较高的拟合效果
C. 逻辑回归回归系数的评估
D. 以上全选
答案:D
逻辑回归是用于分类问题,我们能计算出一个事件/样本的概率;一般来说,逻辑回归对测试数据有着较好的拟合效果;建立逻辑回归模型后,我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。

3 bootstrap 数据的含义是:
A. 有放回的从整体M中抽样m个特征
B. 无放回的从整体M中抽样m个特征
C. 有放回的从整体N中抽样n个样本
D. 无放回的从整体N中抽样n个样本
答案:C
如果我们没有足够的数据来训练我们的算法,我们应该通过重复随机采样增加训练集合的大小

4."过拟合是有监督学习的挑战,而不是无监督学习"以上说法是否正确:
A. 正确
B. 错误
答案:B
我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数

5.下列表述中,在k-fold交叉验证中关于选择K说法正确的是:
A. 较大的K并不总是好的,选择较大的K可能需要较长的时间来评估你的结果
B. 相对于期望误差来说,选择较大的K会导致低偏差(因为训练folds会变得与整个数据集相似)
C. 在交叉验证中通过最小化方差法来选择K值
D. 以上都正确
答案:D

较大的K意味着更小的偏差(因为训练folds的大小接近整个dataset)和更多的运行时间(极限情况是:留一交叉验证)。当选取K值的时候,我们需要考虑到k-folds 准确度的方差。

6. 一个回归模型存在多重共线问题。在不损失过多信息的情况下,你该怎么做:
A. 移除共线的两个变量
B. 移除共线的两个变量其中一个
C. 我们可以计算方差膨胀因子(variance inflation factor)来检查存在的多重共线性并采取相应的措施
D. 移除相关变量可能会导致信息的丢失,为了保留这些变量,我们可以使用岭回归(ridge)或lasso等回归方法对模型进行惩罚
答案:B C D
为了检查多重共线性,我们可以创建相关系数矩阵来辨别和移除相关系数大于75%的变量(阈值根据情况设定),除此之外,我们可以使用VIF方法来检查当前存在的共线变量。VIF<=4表明没有多种共线,VIF>=10表明有着严重的多重共线性。当然,我们也可以使用公差(tolerance)作为评估指标。
但是,移除相关变量可能导致信息的丢失,为了保留这些变量,我们可以使用带惩罚的回归方法。我们也可以在相关变量之间随机加入噪音,使得变量之间存在差异。但增加噪音可能影响准确度,因此这种方法应该小心使用。

7.评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题:
A. 减少模型中特征的数量
B. 向模型中增加更多的特征
C. 增加更多的数据
D. B 和 C
E. 以上全是
答案 :B
高偏差意味这模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差

8. 在构建一个基于决策树模型时,使用信息增益information gain作为决策树节点属性选择的标准,以下图片中哪一个属性具信息增益最大:
A. Outlook
B. Humidity
C. Windy
D. Temperature
答案 :A
信息增益是划分前样本数据集的不纯程度(熵)和划分后数据集的不纯程度(熵)的差值,计算各信息增益即可。

9. 在决策树中,用作分裂节点的information gain说法正确的是
A. 较小不纯度的节点需要更多的信息来区分总体
B. 信息增益可以使用熵得到
C. 信息增益更加倾向于选择有较多取值的属性
答案 B C
使用信息增益作为决策树节点属性选择的标准,由于信息增益在类别值多的属性上计算结果大于类别值少的属性上计算结果,这将导致决策树算法偏向选择具有较多分枝的属性。

10. 一个SVM存在欠拟合问题,下面怎么做能提高模型的性能:
A. 增大惩罚参数C
B. 减小惩罚参数C
C. 减小核函数系数(gamma值)
答案: A
C >0称为惩罚参数,是调和二者的系数,C值大时对误差分类的惩罚增大,C值小时对误差分类的惩罚减小。当C越大,趋近无穷的时候,表示不允许分类误差的存在,margin越小,容易过拟合;当C趋于0时,表示我们不再关注分类是否正确,只要求margin越大,容易欠拟合

11.支持向量机模型,选择RBF函数作为kernel后,对gamma(函数自带参数)画散点图,如果忘记在图上标记gamma值,以下哪一个选项可以解释下图的gamma值(图1,2,3从左向右,gamma值分别为g1、g2、g3)?

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

随着gamma的增大,存在对于测试集分类效果差而对训练分类效果好的情况,并且容易泛化误差出现过拟合,因此C选项正确。

12. 做一个二分类预测问题,先设定阈值为0.5,概率大于等于0.5的样本归入正例类(即1),小于0.5的样本归入反例类(即0)。然后,用阈值n(n>0.5)重新划分样本到正例类和反例类,下面哪一种说法正确是()

1.增加阈值不会提高召回率
2..增加阈值会提高召回率
3..增加阈值不会降低查准率
4.增加阈值会降低查准率

A. 1

B. 2

C. 1 and 3

D. 2 and 4

E. None of the above

答案: C


实际为“正”

实际为“反”

预测为“正”

TP

FP

预测为“反”

FN

TN

召回率=TP/TP+FN

查准率=TP/TP+FP

所以当概率阈值增加时,TP、FP减少或者持平, TP+FN不变,所以召回率不会增加,一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如右图,所以答案选择C。

13.点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:

A.模型的准确率非常高,我们不需要进一步探索

B.模型不好,我们应建一个更好的模型

C.无法评价模型

D.以上都不正确

答案: B

对于失衡数据,模型的准确率不能作为衡量模型效果的标准。因为我们需要探索的是少数1%的数据,为更好的评估模型效果,可以用灵敏度、特异度、F measure来判断,如果样本数少的类别表现非常弱,我们会采取更多措施。所以答案选B。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-5044073-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。