选择一种机器学习方法并让其在数据上疯狂并不是一件容易的事。特别是,了解核心业务问题以及相应的结果和框架目标是机器学习的重要因素之一。如果没有对数据的充分了解,很难推荐一种通用方法。但是,听起来我们需要对您模型的各个方面进行形式化。以下问题可能有助于确定机器学习问题或其他方面:
我想预测什么?我的结果是什么?
我可以使用哪些数据来训练我的模型,我的输入是什么?我可以训练哪些市场因素来预测结果?
机器学习包括监督学习,无监督学习,半监督学习和强化学习。阐明问题非常重要。无论是分类问题还是数字问题,还是仅仅是聚类问题都需要解决。有几种分类和回归子类型。
分类:选择几类?
二进制分类(是/否)
多类分类(动物类型)。用于多类别分类
一个示例,多个类的单个级别有多少个类别(这是哪种动物)
多类多层次(此图中的所有动物都是什么)。
在分类中,数据被标记为意味着为数据分配了一个类别,例如预付费/后付费或网站访问者/非网站访问者。建模的决定是将标签分配给新的未标签数据。
回归:输出多少个数字,
一维回归,例如预订了多少票
多维回归,例如位置的纬度和经度是多少。
数据用实际值(认为是浮点数)标记,而不是标记。时间序列数据(如股票价格随时间的变化),要建模的决策是为新的未预测数据预测的价值。
聚类:数据未标记,但可以根据相似性和数据中自然结构的其他度量将其分为几类。一个示例是按用途组织客户,而不使用名称/标识,其中客户/用户将名称分配给类似Digital Natives,Mac上的iPhoto,Campaign hunters等组。
规则提取:数据用作提取命题规则(如果-则是)的基础。这样的规则可以但通常不是针对性的,这意味着这些方法发现数据中属性之间的统计上可支持的关系,而不一定涉及正在预测的事物。一个例子就是机票购买和酒店预订之间的关系的发现(这是数据挖掘民法,不管是真的还是假的,它都说明了欲望和机会)。
解决了发音问题后,现在就可以识别数据源并提供有关以下标签问题的答案:
我有多少标签数据?
我的标签的来源是什么?
我的标签与我将要做出的决定紧密相关吗?
识别ML系统用来进行预测的数据。每行构成一个要进行预测的数据。仅包括做出预测时可用的信息。选择1-3个易于获得的输入,这些输入将产生合理的初始结果。
学习能力:机器学习模型能够学习吗?列出可能导致学习困难的问题的各个方面。例如,数据集没有足够的肯定标签,训练数据没有包含足够的示例,标签太嘈杂,系统会记住训练数据,但是很难推广到新的案例。
考虑潜在的偏见:许多数据集在某种程度上存在偏见。这些偏见可能会对训练和做出的预测产生不利影响。例如,有偏见的数据源可能无法跨多个上下文转换,训练集可能无法代表模型的最终用户,因此可能给他们带来负面的体验。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







