楼主: Frank233
7327 1

[Modeler] IBM SPSS Modeler 新手使用入门(2)建模简介 [推广有奖]

  • 3关注
  • 20粉丝

教授

43%

还不是VIP/贵宾

-

威望
1
论坛币
-203418 个
通用积分
1202.1636
学术水平
43 点
热心指数
68 点
信用等级
43 点
经验
33824 点
帖子
597
精华
0
在线时间
1278 小时
注册时间
2015-6-30
最后登录
2022-1-6

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

建模简介


模型是一组规则、公式或方程式,可以用它们根据一组输入或变量来预测输出。例如,一家财务机构可根据对过往申请人的已知信息,使用模型预测贷款申请人可能存在优良还是不良风险。预测结果是预测性分析的中心目标,了解建模过程是使用 SPSS Modeler 的关键。
图 10. 简单的决策树模型
10.jpg

本示例使用 CHAID(卡方自动交互效应检测)模型,通过一系列决策规则对记录进行分类(并预测用户响应),例如:
如果收入 = 中等
并且卡 <5
则 ->“优良”

本示例旨在介绍使用 SPSS Modeler 进行数据挖掘的基本流程,其中大部分概念可广泛应用于 SPSS Modeler 中的其他建模类型。
无论要了解哪种模型,均需要首先了解进入该模型的数据。此示例中的数据包含有关银行客户的信息。其中使用了下列字段:
表 2. 数据字段
字段名描述
Credit_rating 信用评价:0= 不良,1= 优良,9= 丢失值
年龄客户年龄
收入收入水平:1= 低,2= 中,3= 高
Credit_cards 持有的信用卡数量:1= 少于五张,2= 五张或更多
教育教育程度:1= 高中,2= 大学
Car_loans 贷款的汽车数量:1= 没有或一辆,2= 超过两辆
银行可维护银行贷款客户的历史信息,包括客户是正常还贷(信用评价 = 优良)还是在拖欠贷款(信用评价 = 不良)。银行希望使用现有的数据建立一个模型,允许他们预测未来贷款申请人拖欠贷款的可能性。使用决策树模型,您可分析这两组客户的特征,并预测不良客户拖欠贷款的可能性。
构建流
本示例使用了名为 modelingintro.str的流,数据文件是 tree_credit.sav。(与示例一起使用的数据文件和样本流安装在产品安装目录下的 Demos 文件夹中。)
我们来看一下流:
  • 从主菜单中选择下列选项:文件 > 打开流
  • 单击“打开”对话框的工具栏上的金色模型块图标,然后选择 Demos 文件夹。见图示。
  • 双击 streams 文件夹。
  • 双击名为 modelingintro.str的文件。
图 11.  “打开”对话框
11.jpg

在本例中,我们使用 CHAID 建模节点。CHAID,或卡方自动交互效应检测,是一种通过使用称作卡方统计量的特定统计类型识别决策树中的最优分割来构建决策树的分类方法。
要构建流以创建模型,至少需要三个元素:
  • 从外部源读取数据的源节点,在本示例中为 IBM SPSS Statistics 数据文件。
  • 指定字段属性的类型节点,字段属性包括测量级别(字段包含的数据类型)以及每个字段在建模过程中的角色是目标还是输入等。
  • 在运行流时生成模型块的建模节点。
该流中还包含表节点和分析节点,当创建模型块并将其添加到流以后,可使用这两个节点查看评分结果以评估模型。
图 12. 流 modelingintro.str
12.jpg
Statistics 文件源节点从 tree_credit.sav 数据文件读取 SPSS Statistics 格式数据,该文件安装在 Demos 文件夹中。(名为 $CLEO_DEMOS 的特殊变量用于引用安装目录位于 Demos 目录下的文件。这样,无论当前的安装文件夹或版本是什么,均可以确保路径有效。如在本例中可以写作:$CLEO_DEMOS/tree_credit.sav,与图中全路径效果是一样的。)
图13.源节点
13.jpg 类型节点指定每个字段的测量级别。测量级别是一种指示字段中数据类型的类别。我们的源数据文件使用三种不同的测量级别:

连续字段(Continuous,例如年龄字段)包含连续的数字值,而名义字段(Nominal,例如信用评价字段)有两个或多个不同值,如不良、优良或无信用历史。有序字段(Ordinal,例如收入水平字段)用于描述具有顺序固定的不同值的数据,在本例中为低、中和高。

对于每个字段,类型节点还指定角色,以指示每个字段在建模中扮演的部分。字段信用评价(Credit rating)指示指定的客户是否拖欠贷款,这是要预测的目标字段,将其角色设置为目标。对于其他字段,将角色设置为输入。输入字段也称为预测变量,即建模算法用来预测目标字段值的字段。

CHAID建模节点生成模型。在建模节点的字段选项卡中,已选中使用预定义角色,这意味着将使用在类型节点中指定的目标字段和输入字段。可以在此处更改字段角色,但在本例中不做任何更改。
图14.CHAID模型节点-字段页
14.jpg
单击“构建选项”选项卡。
图 15. CHAID 模型节点 - 构建选项页 - 目标项
15.jpg
此处包含的选项可以用于指定要构建的模型类型。由于我们想要一个全新的模型,因此使用默认选项构建新模型。我们还要求它为单个标准决策树模型,并且不使用任何增强,因此保留默认目标选项构建单个树。还可以选择启动交互会话对模型进行手动的微调,本示例只使用默认设置来生成模型。

对于此示例,我们希望保持树的结构简单,因此通过增加用于父节点和子节点的最小记录数限制树的增长。
  • 在构建选项选项卡上,从左侧的导航器窗格选择停止规则。
  • 选择使用绝对值选项。
  • 将父分支中的最小记录数设置为 400。
  • 将子分支中的最小记录数设置为 200。
图 16. CHAID 模型节点 - 构建选项页 - 停止规则项
16.jpg
我们可以使用所有其他默认选项,然后单击运行以创建模型。(或者,也可以右键单击该节点然后选择运行,或选择节点并从工具主菜单中选择运行。)
浏览模型
等一小段时间当流执行完成后,模型块将被添加到应用程序窗口右上角的模型选项板中,它还会被自动连接在流工作区中,并带有指向创建它的建模节点的链接。要查看模型的详细信息,右键单击模型块并选择浏览(在模型选项板上)或编辑(在工作区上)。
图 17. 包含模型块的流 modelingintro.str
17.jpg
对于 CHAID 模型块,模型选项卡以规则集的形式显示详细信息,规则集实际上是可根据不同输入字段的值将各个记录分配给相应子节点的一组规则。
图 18. CHAID 模型块 - 模型页
18.jpg
对于每个决策树终端节点 -- 意味着那些树节点没有再进一步拆分 -- 返回优良或不良的预测值。对于落在该节点内的记录,所有个案中的预测均由模式或最常见的响应决定。
在规则集的右侧,模型选项卡显示预测变量重要性图表,该图表显示评估模型时每个预测变量的相对重要性。通过这一点,我们看到收入水平 (Income level)在此个案中最显著,而其他唯一显著的因子是信用卡数量(Number of credit cards)。
图 19. CHAID 模型块 - 变量重要性
19.jpg
模型块中的查看器选项卡以树的形式显示相同的模型,每个决策点上都有一个节点。可使用工具栏上的缩放控件放大特定节点,或缩小节点以查看更完整的树。
图 20. CHAID 模型块 - 查看器页
20.jpg
查看树的上部分,第一个节点(节点 0)为我们提供数据集中所有记录的摘要。数据集中超过 40% 的个案分类为不良风险。这是相当高的比例,因此让我们看看树能否提示哪些因素起决定作用。我们可以看到第一个分割是根据收入水平产生的。收入水平位于低类别的记录被指定到节点 2,可以看到此类别包含贷款拖欠的百分比最高 --82%。因此我们认为此类别的客户都具有高风险。但是要注意的是,此类别中有 16% 客户实际上没有拖欠,因此说预测并非始终准确。事实上没有模型能够精确预测所有的结果,但好的模型能够根据可用数据预测出最接近的结果。

同样,如果我们查看高收入客户(节点 1),我们看到绝大部分 (89%) 是优良风险。但是在这个类别中 10 位客户也有 1 位会拖欠。还能继续精炼贷款标准以便将此处的风险最小化吗?我们继续看,接下来模型根据客户持有的信用卡数量,将这些客户分成两个子类别(节点 4 和节点 5)。对于高收入客户,如果我们只向那些信用卡少于 5 张的客户贷款,则可以将我们的成功率从 89% 提高到 97%-- 很明显是一个更满意的结果。
图 21. CHAID 模型块 - 高收入客户
21.jpg
回过头来看看中等收入类别(节点 3)中的那些客户是什么情况呢?他们更加均匀地划分为优良和不良评价。子类别(节点 6 和 7)这次仍然能帮助我们。如果只向那些信用卡少于 5 张的中等收入客户贷款,可将优良评价的百分比从 58% 提高到 85%-- 显著的改进。
图 22. CHAID 模型块 - 中等收入客户
22.jpg
至此,我们了解到输入此模型的每项记录都将被分配到一个特定节点,并且根据该节点最常见的结果分配在优良或不良中二选一的预测值。
为各个客户记录分配预测值的过程称为评分 (Scoring)。因为我们已经知道原始记录中每个客户的情况,通过对这些原始记录进行评分并与实际值相比较,可以评估该模型的准确度。让我们看看如何做到这一点。
评估模型
要评估模型的准确度,需要对一些记录(这里我们用原始记录)进行评分,并将模型预测的结果与实际结果进行比较。
图 23. 包含输出的流 modelingintro.str
23.jpg
要查看分数或预测值,请将表节点连接到模型块,双击表节点,然后单击运行。
可以从表中看到,模型创建了一个名为 $R-Credit rating 的字段,用来显示预测值。我们可以将这些值与原始信用评价字段进行比较。
图 24. CHAID 模型输出表格
24.jpg
在 SPSS Modeler 中,在评分过程中生成的字段的名称基于目标字段,再加上标准前缀,例如 $R- 表示预测值,$RC- 表示置信度值。不同的模型类型使用不同的前缀集。置信度值(confidence value)是模型自己做的评估,尺度从 0.0 到 1.0,表示每个预测值的精确程度。

与预期的一样,预测值与大多数(并非全部)记录的实际值相匹配。原因是每个 CHAID 终端节点均包含混合值,而预期值与大部分结果相匹配,对于该节点中的其他结果,该预期值是错误的。(还记得节点 2 中 16% 的少部分低收入客户其实是没有拖欠的吗?)若要避免出现此情况,可继续将树分割为更小的分支,直到每个节点都不含混合值 (100%) 为止—即全部为优良或不良。但是,这样的模型会非常复杂,并且不易推广到其他数据集。

要查看具体有多少预测值正确,我们可通读表格,并数一数预测字段 $R-Credit rating的值匹配信用评价的值的记录数量。幸运的是,我们有更简单的方式 -- 使用分析节点,它将帮助我们自动进行此项操作:将模型块连接到分析节点,双击分析节点,然后单击运行。

分析表明,2464 个记录中有 1960 个记录(约 80%)的模型预测值与实际值相匹配。
图 25. CHAID 模型分析结果
25.jpg
注意我们用来评分的记录和评估模型的记录是同一批数据。在真实情况中,可使用分区(partition)节点将数据分割为两个样本分别用于培训模型和评估模型。通过使用一个样本生成模型并使用另一个样本对模型进行检验,您可更有意义地评估将模型推广到其他数据集的情况。

这一阶段我们通过分析节点可以针对已知道其实际结果的记录来检验模型。下一阶段将介绍如何使用模型对我们不知道结果的记录进行评分。例如,当前不是银行客户但是可做为促销对象的人群。
对记录评分
现在,我们要查看如何对不同的记录集进行评分。这是进行建模的目标:研究已知道结果的记录,以找出模式可以让您预测未知结果记录的结果。
图 26. 包含评分数据的流 modelingintro.str
26.jpg

我们可以更新 Statistics 文件源节点使它指向其他数据文件,也可以添加一个新的源节点,用它读取要评分的数据。无论采用哪种方式,新数据集必须包含建模所使用的所有输入字段(年龄、收入水平、教育等),但不包含目标字段信用评价。运行表节点即可得到结果,我们就不在这里执行了。

另外,也可以将模型块添加到包含输入字段的任何流中。无论数据源是文件还是数据库,只要字段名和类型与模型使用的相匹配,源类型都无关紧要。还可以将模型块保存为单独的文件、或将模型导出为 PMML 格式以用于其他支持此格式的应用程序,或将模型存储到 IBM SPSS Collaboration and Deployment Services 存储库中,这样可以在企业范围对模型进行部署、评分和管理。无论使用何种基础结构,模型自身都按相同的方式工作。

摘要本示例演示创建、评估模型以及对模型评分的基本步骤。
  • 建模节点通过研究已知道结果的记录来建立模型,并创建模型块。也可称为训练模型。
  • 可将模型块添加到包含预期字段的任何流中,以对记录进行评分。通过对已知道结果的记录(如现有客户)进行评分,可以评估模型的运行情况。
  • 如果您对模型的运行情况感到满意,则可以对新数据(如准客户)进行评分,以预测他们的响应。
  • 用于训练或评估模型的数据可以称为分析数据或历史数据(analytical or historical data);评分数据也可以称为业务数据(operational data )。

张文彤老师SPSS Modeler数据挖掘实战案例培训2016年劳动节上海开讲!
https://bbs.pinggu.org/thread-4194839-1-1.html



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:SPSS Modeler IBM SPSS MODELER modele model 方程式 申请人 财务 贷款 机构


CDA数据分析交流群 217748971
沙发
lirenkl 发表于 2016-9-16 08:26:37 |只看作者 |坛友微信交流群
谢谢版主分享。讲的好详细ya

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 18:21