楼主: 时光永痕
721 0

[数据挖掘新闻] ML预测和个性化方法 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

16%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
ML预测和个性化方法
介绍
推荐系统使用算法??为用户提供产品或服务建议。最近,这些系统一直在使用来自人工智能领域的机器学习算法。越来越多的在线公司正在使用推荐系统来增加用户互动并丰富购物潜力。推荐系统的用例正在迅速扩展。他们涉及电子商务和在线媒体的许多方面,我们预计这一趋势将继续下去。
推荐系统(通常称为“推荐引擎”)有可能改变网站与用户交流的方式。它们使公司能够根据每个客户的喜好和购买信息获得最大的投资回报。
在本文中,我们将研究提供个性化体验的机器学习方法。这对不同网站上的客户和不同业务领域的最终消费者最重要
什么是机器学习?
在开始理解机器学习如何在各种业务中增强个性化的旅程之前,让我们尝试首先对机器学习有所了解。机器学习主要专注于计算机程序的开发,当暴露于新数据时,计算机程序可以教会自己成长和变化。机器学习研究用于自学做事的算法。使用学习算法,它可以更快地处理海量数据。
数据每天都在增长,因此不可能以更高的速度和更高的准确性来理解所有数据。超过80%的数据是非结构化的,即音频,视频,照片,文档,图形等。人脑不可能在地球数据中找到模式。数据非常庞大,计算所需的时间只会增加。这是机器学习开始起作用的地方,可以帮助人们在最短的时间内拥有大量数据。
ML个性化方法
在本节中,我们将向您介绍机器学习中的各种技术,这些技术可以帮助您为最终用户个性化您的业务服务。用户体验和转换(最终)是企业的主要目标。以下算法将帮助您实现个性化
机器学习个性化方法
回归
回归分析是一种预测建模技术,用于研究因变量 和 自变量之间的 关系。回归(线性)旨在找到一条可以准确描述两个变量之间实际关系的直线。
回归可以帮助金融和投资专业人士以及其他行业的专业人士。回归可以帮助根据天气,以前的销售额,GDP增长或其他条件预测公司的销售额。资本资产定价模型(CAPM)是金融中常用的回归模型,用于对资产定价和发现资本成本。每种回归类型的一般形式为:
线性回归:Y = a + bX + u
哪里:
Y =您要预测的变量(因变量)
X =您用来预测Y的变量(独立变量)
a =截距
b =斜率
u =回归残差
让我们在这里举一个例子。一家公司X试图以年龄作为决定因素来预测个人的工资。可以绘制所有可用数据点,然后找出一条“最佳拟合线”,该线将描述您的年龄和薪水参数之间的关系。在下图中,绿点是所有可用的数据点,并且穿过这些点的直线是最佳拟合线。使用此行,我们可以预测其他客户的薪水。假设我们要预测年龄为a的人的工资。使用最佳拟合线,当年龄为a(给定参数)时,我们将查看工资的相应值。使用此类预测,零售等企业可以向不同的客户提供不同的产品(基于定价),以个性化其在平台上的体验
图-工资与年龄
分类器
在机器学习和统计中,分类是一种重要的监督学习方法,其中计算机程序从输入给它的数据中学习,然后使用这种学习对新的观察结果进行分类。该数据集可以简单地是双类的(例如识别该人是男性还是女性,或者邮件是垃圾邮件还是非垃圾邮件),或者它也可以是多类的。分类问题的示例包括语音识别,手写识别,生物特征识别,文档分类等。
K最近邻是机器学习中最基本但必不可少的分类算法之一。它属于监督学习领域,在模式识别,数据挖掘和入侵检测中得到了广泛的应用。
让我们在这里举例说明。假设您要对桔子中的苹果进行分类。我们的数据包含2个参数,即水果的圆度和水果的红色强度。然后,我们进行绘制。如我们所见,左上角包含橙色(红色强度较小,圆度较大的橙色),右下角包含表示苹果的所有数据点。假设我们有一个水果,我们知道它的圆度和红色强度,例如d1和d2。我们检查d1和d2的最近邻居,并将类相应地分配给新数据点。到d1的最近点都是橙色,因此d1被分类为橙色,到d2的最近点是所有苹果,因此d2被分类为苹果。
分类器图
当我们具有一组用于个性化方案的预定义类时,将使用分类技术。假设我们要根据客户在Netflix上观看的电影类别对客户进行分类,以提供该特定类型的电影推荐,那么分类技术真的非常方便!
聚类方法
聚类是最重要的 无监督学习 问题之一。因此,像其他所有此类问题一样,它也涉及 在未标记数据的集合中查找 结构。
集群的一个宽松定义可能是“将对象组织成成员在某种程度上相似的组的过程”。
甲 簇 ,因此,对象的集合,其是“相似的”在它们之间,并且“不相似”于属于其他簇的对象。
聚类的目的是确定一组未标记数据中的固有分组。但是,如何确定什么构成一个好的聚类呢?可以证明,没有绝对的“最佳”标准会独立于聚类的最终目标。因此,必须由用户提供该标准,以使聚类的结果适合他们的需求。
例如,在寻找“自然簇”并描述其未知属性(“自然”数据类型),寻找有用和合适的分组(“有用”数据类)时,我们可能需要寻找同类组的代表(数据约简)或查找异常数据对象(异常检测)。
下面给出的是年龄与工资的关系图,我们可以在其中识别出两组个人。其中一组是年龄较小且购买了新的廉价智能手机的人,而另一组是那些更成熟且薪水较高但未购买产品的人。可以很容易地推断出该产品在年轻一代中受到冲击,收入属于中产阶级。
聚类方法图
关联规则学习方法
从根本上讲,关联规则表示项目之间的关系。它们是有助于发现数据库中数据之间关系的语句。关联规则是形式A→B的含义。这里的“ A”是前提,表示要保持“ B”所必须满足的条件。“ B”是当“ A”为真时得出的结论。前因是在数据中找到的元素,而结果是与前因结合在一起发现的。
关联规则学习
它是发现大型数据库中不同变量之间有趣关系的一种流行技术。关联规则适用于构建推荐引擎,例如Amazon或Netflix的推荐引擎。简而言之,这种方法可以彻底分析不同用户购买的商品。通过这种分析,可以轻松地找到它们之间的关系
为了了解这些交易之间关联的强度,该算法使用了各种指标:
支持 有助于从数十亿条记录中选择最重要和最有趣的项目集,以进行进一步分析。您可以在此处设置特定条件,例如,分析12
置信度 告诉我们,先因发生的可能性是多少。示例-用户已经购买了Sampras的传记后,购买Agassi传记书的可能性有多大。
提升 控制随后的频率,以避免负面依赖性或替代效应。对于关联较弱的产品,该规则可能显示出较高的置信度。提升考虑了先行因素和结果的支持,以计算条件概率并避免avoid幸。
加固方法
甲 Markov链 是经历转变从一个状态到另一个按照一定规则概率的数学系统。马尔可夫链的定义特征是,无论  过程如何到达其当前状态,可能的未来状态都是固定的。换句话说,转换为任何特定状态的可能性仅取决于当前状态和所经过的时间。该 状态空间,或所有可能的状态的集合,可以是任何东西:字母,数字,天气条件,棒球分数,或股票演出。
马尔可夫链类似于有限状态机,随机游走提供了其在数学上的有用性的一个很好的例子。它们广泛地出现在统计和信息理论的背景下。它们的应用在于经济学,博弈论,排队(沟通)论,遗传学和金融学。尽管可以讨论任何大小的状态空间的马尔可夫链,但最初的理论和大多数应用程序应关注状态数量有限(或无限数量)的情况。
加固方法
考虑到马尔可夫链仅使用实时数据而不考虑历史信息这一事实,这种方法并不是万能的。PageRank是Google的一种算法,它可以确定搜索结果的顺序。
但是,例如在构建AI驱动的推荐引擎时,您必须将Markov链与其他ML方法(包括上述方法)结合起来。明智地讲,  Netflix使用了一系列ML方法 为用户提供超个性化的产品。
结论
在此博客中,我们研究了ML中的各种技术,通过这些技术可以为各自业务的最终用户提供个性化服务。消费者通过多种渠道与品牌建立联系,这意味着零售商必须做更多的事情来提高客户忠诚度。营销团队需要从他们可用的多个数据渠道中获取可行的见解,以与客户进行互动性强的相关对话。个性化的体验越多,客户就越快乐。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:个性化 资本资产定价模型 netflix Markov Google

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-22 07:12