人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 关于数据挖掘的基本流程

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: ada89k

1379 1

[数据挖掘理论与案例] 关于数据挖掘的基本流程 [推广有奖]

3关注
72粉丝

院士

99%

还不是VIP/贵宾

威望: 2 级
论坛币: 538792 个
通用积分: 14.7458
学术水平: 123 点
热心指数: 149 点
信用等级: 82 点
经验: 46289 点
帖子: 1667
精华: 3
在线时间: 2443 小时
注册时间: 2017-2-7
最后登录: 2024-4-22

楼主

ada89k

发表于 2017-3-8 15:36:45 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

关于数据挖掘的基本流程

以下是对关于数据挖掘的基本流程进行的简单分析，希望可以对正在学习的同学有所帮助。

第一步，建立模型，确定数据表中哪些列是要用于输入，哪些是用于预测，选择用何种算法。这时建立的模型内容是空的，在模型没有经过训练之前，计算机是无法知道如何分类数据的。

第二步，准备模型数据集，例子中的模型数据集就是1000个会员数据。通常的做法是将模型集分成训练集和检验集，比如从1000个会员数据中随机抽取700个作为训练集，剩下 300个作为检验集。
第三步，用训练数据集填充模型，这个过程是对模型进行训练，模型训练后就有分类的内容了，像例子图中的树状结构那样，然后模型就可以对新加入的会员事例进行分类了。由于时效性，模型内容要经常更新，比如十年前会员的消费模式与现在有很大的差异，如果用十年前数据训练出来的模型来预测现在的会员是否会购买自行车是不合适的，所以要按时使用新的训练数据集来训练模型。

第四步，模型训练后，还无法确定模型的分类方法是否准确。可以用模型对300个会员的检验集进行查询，查询后，模型会预测出哪些会员会购买自行车，将预测的情况与真实的情况对比，评估模型预测是否准确。如果模型准确度能满足要求，就可以用于对新会员进行预测。

第五步，超市每天都会有新的会员加入，这些新加入的会员数据叫做预测集或得分集。使用模型对预测集进行预测，识别出哪些会员可能会购买自行车，然后向这些会员投递广告

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据挖掘训练数据集训练数据消费模式模型预测数据挖掘数据分析数据分析师

[数据挖掘理论与案例] 关于数据挖掘的基本流程 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘理论与案例] 关于数据挖掘的基本流程 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群