阅读权限 255 威望 1 级论坛币 27586 个 通用积分 18.5640 学术水平 43 点 热心指数 59 点 信用等级 41 点 经验 55356 点 帖子 761 精华 2 在线时间 1249 小时 注册时间 2007-12-3 最后登录 2024-3-5 毕业学校 大连理工大学
给出自己的一些看法。
题目1:
首先,我认为题目 给出的数据有些问题(这也是我一直没有回答问题的原因),这一问题是典型的分类问题,由于要给出使得学院队赢得比赛的策略,使用决策树方法提取决策规则显然很直观,也很快捷。下面阐述下我的思路。
说题目有问题是这样的,根据分类中决策树的方法来看,使用比赛时间属性就把输赢全给分开了(7点的话肯定赢,9点肯定输,计算比赛时间属性的信息熵,可知这一属性的熵值为0,根据信息增益最大原则,第一个分割属性就是比赛时间,这样一来所有数据全部被拟合),因此如果设计策略的话,只能是比赛时间为7点即可。当然这是数据量较少造成的,如果对于大量的比赛数据,可以按照如下的方案进行操作:1)将数据属性转换为数值,如比赛地点在学院可以为1,大学可以为2,其它属性包括最后的类标号都一样。2)将数据输入matlab中,使用matlab中的 classregtree函数生成决策树,根据决策树,可以很直观地看出学院队要赢得比赛的决策规则。下边给出题目中数据的决策树及具体执行的matlab代码。
代码:
x=[1,7,1,1,2,1 1; 1,7,1,2,1,2,1;2,7,1,2,2,1,1;2,9,1,2,2,2,2;1,7,1,1,1,1,1;2,7,1,1,1,2,1;2,9,1,1,2,2,2;1,7,1,1,1,2,1;1,7,1,1,2,2,1;;1,7,1,1,2,1,1]
%(这是数值化后的数据,除了时间属性,其它都用1和2来表示,怎么设置都可以,不会影响分类结果)
t = classregtree(x(:,1:6), x(:,7),'names',{'地点' '时间' 'sachin首发' 'Girish进攻' 'Girish防御' '对手中锋'});
view(t) 得到的决策树如下图:
这里只是给出一个例子,对大样本数据进行数据挖掘才有一定的实际意义。
题目2:
由于没有具体的背景和具体数据,在这里以每次电视节目有重要的体育赛事时,赛前一小时肯德基炸鸡的销售量就会上涨超过20%。”为例进行说明,给出拟执行的方案。可以考虑使用关联分析,提取关联规则。
首先需要进行数据的收集,在某一时间段内,按小时进行数据的收集,计算出有赛事和无赛事前一小时和前两小时的炸鸡销售量,通过这一数据,计算炸鸡销售量的上涨比例(在这里可以假定超过上涨20%即为满足题意),这一可以得到如下的信息表
时间
是否有赛事
上涨是否超过 20%
某月某日某时
是
是
某月某日某时 +1
否
是
某月某日某时 +2
有
否
……
……
……
……
……
……
某月某日某时 +n
有
是
接下来,统计该时间段内有赛事的次数(N),有赛事情况下赛事前炸鸡销量上涨超过20%的次数(M)
然后计算有赛事情况下,赛事前一小时炸鸡销量超过20%的概率(N/M),给定阈值s,如果计算概率超过s,则认为两个事件关联,则可以说:在某一段时间内,电视上有重要体育赛事的情况下,赛前一小时炸鸡销量上涨超过20%以一定的置信度N/M成立。当然,这只是一种简单的情况,也可以考虑变量之间的负关联规则等等。
由于题目给出的信息有限,只能提交一个分析思路,如果能给出具体的描述,分析才能较为具体。此外,看到前面有网友说用Crisp-DM模型,我想纠正一下,Crisp-DM从一定程度来看更是一种方法论,它给出了数据挖掘的一个跨行业标准,阐明了完成一个商务数据挖掘项目的整体流程,是在商务智能领域进行数据挖掘的一个指导,做真正的数据挖掘项目以Crisp-DM方法论为指导,可以说是事半功倍。
在这里就写这么多吧,希望能看到更优秀更完美的分析解答。