对于希望采用机器学习的企业来说,关键的第一步是确保决策者对机器学习到底是什么有技术理解,以及通过这种理解可以释放的商业潜力。
在基础层面,机器学习教会计算机去做人类和动物自然而然的事情:从经验中学习。这涉及使用可以直接从数据中“学习”而不依赖于预定方程作为模型的算法。随着可用数据样本数量的增加,算法会自适应地提高其性能。不断增长的数据量推动了机器学习在业务应用程序中的潜力。
机器学习算法在数据中发现自然模式并获得洞察力,从而做出更好的预测和决策。这些算法用于医疗诊断、股票交易、能源负荷预测等。流媒体网站如Netflix 依赖机器学习筛选数百万个选项以呈现电影推荐。其他应用包括:
计算金融,用于信用评分、算法交易和情绪分析
图像处理和计算机视觉,用于人脸识别、运动检测和物体检测
计算生物学,用于肿瘤检测、药物发现和 DNA 测序
汽车、航空航天和制造业,用于预测性维护
机器学习是如何工作的
机器学习使用两种技术:监督学习,它在已知的输入和输出数据上训练模型,以便它可以预测未来的输出,以及无监督学习,它发现输入数据中的隐藏模式或内在结构。
监督学习
监督机器学习的目的是建立一个模型,在存在不确定性的情况下根据证据进行预测。监督学习算法采用一组已知的输入数据和对数据(输出)的已知响应,并训练模型以生成对新数据响应的合理预测。
这些预测是通过分类和回归技术开发的。
分类技术可以预测离散的响应——例如,一封电子邮件是合法的还是垃圾邮件,或者肿瘤是癌性的还是良性的。分类模型将输入数据分类。典型应用包括医学成像、语音识别和信用评分。
回归技术可预测连续响应,例如温度变化或电力需求波动。
如果应用得当,监督学习技术的直观能力几乎是无限的。它们甚至被临床医生用来通过访问以前患者的数据(包括年龄、体重、身高和血压,以及以前曾患过心脏病的人的历史知识)来密切预测一个人是否有心脏病发作的风险。
无监督学习
无监督学习用于从由没有标记响应的输入数据组成的数据集中得出推论。
聚类是最常见的无监督学习技术。它用于探索性数据分析,以发现数据中的隐藏模式或分组。聚类的应用包括基因序列分析、市场研究和图像中的对象识别。
了解哪种学习技术最适合特定项目或应用程序虽然很重要,但只是启用集成机器学习系统功能的第一步。选择正确的学习算法,最后确定利用该技术的最佳时间,完善该过程。
选择合适的算法
选择正确的算法似乎势不可挡——有几十种监督和非监督机器学习算法,每一种都采用不同的方法。没有最好的方法或一刀切。
找到正确的算法部分是反复试验;即使是经验丰富的数据科学家也无法在不尝试的情况下判断算法的运行效果。算法选择还取决于收集和分析的数据的大小和类型、数据旨在揭示的洞察力以及如何使用这些洞察力。
幸运的是,机器学习和软件工具可以通过允许工程师探索他们的数据、应用许多不同的模型并更准确地预测算法将如何与整个系统交互来优化算法选择过程。
在正确的时间实施机器学习
在团队确定哪种算法最适合某个功能或项目后,需要考虑何时实施该技术。最好利用机器学习来解决涉及具有大量变量的大型数据集以及没有现有公式或方程的问题。通常,公司急于选择和集成算法,最终在不需要机器学习复杂技术能力的任务上浪费时间和资源。相反,应在以下情况下考虑机器学习:
手写的规则和方程太复杂了,就像人脸识别和语音识别一样。
任务的规则是不断变化的,就像从交易记录中检测欺诈一样。
数据的性质不断变化,程序需要适应,如自动交易、能源需求预测和预测购物趋势。
如果在正确的环境中正确实施机器学习,例如收集和分析大型动态数据集,工程团队将很快理解和欣赏机器学习的力量。任务越复杂,企业就越有可能受益。
相关帖子DA内容精选 |