问:目前机器学习的瓶颈有哪些?可能的改进方式会是怎样的?
答:从本质原理来说,目前的机器学习方法和人脑机制差异还是巨大的,更多的是通过大量数据来训练一个可以尽量逼近训练数据分布的模型,这种本质差异决定了机器学习离人脑思考方式还很遥远。最近深度学习和神经网络很火,最常用的卷积神经网络CNN的发明者Yann LeCun都不乐意称呼卷积神经网络这个名字,更乐意称呼深度卷积网络模型等名字,因为他觉得自己在搞的模型和人脑差异太大,不应该用神经网络的名称。
从科研角度来说,一般每隔若干年就会有一次技术的质变的突破,然后紧接着一些修补完善。之前火过的SVM、AdaBoost、SIFT等,经过几年的优化后,性能基本达到极限,已经发展不动。这两年火了深度学习,目前还处于各种优化提高阶段,但应该也会到一定瓶颈后发展不动,然后需要更多的质变的突破。
从工业应用来说,机器学习的方法应用会越来越多,目前应用的瓶颈主要体现在下面一些地方:
1. 经验。机器学习的方法对于一般的工程师并不友好,如果没有了解原理和做过一些实验,这就是一个参数很多的黑盒,弄不好效果就会很差。
2. 数据量。效果好的方法大都是有监督训练的,这就需要很多标注数据,数据的质量、归一化方法、分布等,对模型的效果都影响很大。
3. 计算能力。很多模型,特别是深度学习模型,训练时间和资源消耗很大,如果需要多次训练调整策略和参数,周期很长。实际部署运行速度也受模型大小和种类影响,速度和效果会有一个权衡。
4. 工程实现能力。好的算法要有好的工程实现,才能发挥正常的作用,代码能力不行,再好的模型也不行。
5. 算法搭配。实际问题往往不是一个单一的算法可以搞定的,需要多个相关算法合理的搭配组合,具体问题具体分析解决。
6. 技术高度。机器学习还比较前沿,效果和应用场景都有天花板,期望未来几年会有更多技术突破。
转自知乎「苗广艺」回答
2016年,经管之家《机器学习》全国4月开课,详情请戳:http://www.peixun.net/view/558.html