楼主: 我的素质低
2537 1

[clementine] IBM SPSS Modeler 新手使用入门 [推广有奖]

学术权威

83%

还不是VIP/贵宾

-

TA的文库  其他...

〖素质文库〗

结构方程模型

考研资料库

威望
8
论坛币
23388 个
通用积分
28302.3504
学术水平
2705 点
热心指数
2881 点
信用等级
2398 点
经验
223623 点
帖子
2977
精华
52
在线时间
2175 小时
注册时间
2012-11-24
最后登录
2024-1-13

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级学术勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
来自IBM DEVELOPERWORKS





IBM SPSS Modeler 简介





作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。随着于 2010 年其新版本 14.1 的发布,名字也由 PASW Modeler 更名为现在的 IBM SPSS Modeler 。

SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。



初次上手





典型的 SPSS Modeler 界面如下:

图 1. SPSS Modeler 界面

接下来将详细介绍其基本概念及操作。

基本概念:节点





节点代表要对数据执行的操作。

例如,假定您需要打开某个数据源、添加新字段、根据新字段中的值选择记录,然后在表中显示结果。在这种情况下,您的数据流应由以下四个节点组成:

表 1. 节点示例  


变量文件节点,设置此节点后可以读取数据源中的数据。


导出节点,用于向数据集中添加计算的新字段。


选择节点,用于设置选择标准,以从数据流中排除某些记录。


表节点,用于在屏幕上显示操作结果。


基本概念:数据流

SPSS Modeler 进行的数据挖掘重点关注通过一系列节点运行数据的过程,我们将这一过程称为数据流。也可以说 SPSS Modeler 是以数据流为驱动的产品。这一系列节点代表要对数据执行的操作,而节点之间的链接指示数据的流动方向。如,上面提到的四个节点可以创建如下数据流:

图 2. 数据流示例

通常,SPSS Modeler 将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)。使用 SPSS Modeler 处理数据的三个步骤:


  • 将数据读入 SPSS Modeler。
  • 通过一系列操纵运行数据。
  • 将数据发送到目标位置。

在 SPSS Modeler 中,可以通过打开新的数据流来一次处理多个数据流。会话期间,可以在 SPSS Modeler 窗口右上角的流管理器中管理打开的多个数据流。

图 3. 流管理器
节点选项板

节点选项板位于流工作区下方窗口的底部。

图 4. 节点选项板

每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点,如:


  • :此类节点可将数据导入 SPSS Modeler,如数据库、文本文件、SPSS Statistics 数据文件、Excel、XML 等。
  • 记录选项:此类节点可对数据记录执行操作,如选择、合并和追加等。
  • 字段选项:此类节点可对数据字段执行操作,如过滤、导出新字段和确定给定字段的测量级别等。
  • 图形:此类节点可在建模前后以图表形式显示数据。图形包括散点图、直方图、网络节点和评估图表等。
  • 建模:此类节点可使用 SPSS Modeler 中提供的建模算法,如神经网络、决策树、聚类算法和数据排序等。
  • 数据库建模:节点使用 Microsoft SQL Server、IBM DB2 和 Oracle 数据库中可用的建模算法直接在数据库里进行建模及评估。
  • 输出:节点生成数据、图表和可在 SPSS Modeler 中查看的模型等多种输出结果。
  • 导出:节点生成可在外部应用程序(如 IBM SPSS Data Collection 或 Excel)中查看的多种输出。
  • IBM SPSS Statistics:节点将 IBM SPSS Statistics 数据导入或导出为 SPSS Statistics 数据,以及运行 SPSS Statistics 提供的功能。

随着对 SPSS Modeler 的熟悉,您可以在收藏夹自定义常用的选项板内容。


使用节点和流





要将节点添加到工作区,请在节点选项板中双击图标或将其拖放到工作区。已添加到流工作区的节点在连接之前不会形成数据流,可以将各个图标连接以创建一个表示数据流动的流,节点之间的连接指示数据从一项操作流向下一项操作的方向。

SPSS Modeler 中最常见的鼠标用法如下所示:


  • 单击。使用鼠标左键或右键选择菜单选项,打开上下文相关菜单以及访问其他各种标准控件和选项。单击节点并按住按键可拖动节点。
  • 双击。双击鼠标左键可将节点置于流工作区,编辑工作区现有节点。
  • 中键单击。单击鼠标中键并拖动光标可在流工作区中连接节点。双击鼠标中键可断开某个节点的连接。如果没有三键鼠标,可在单击并拖动鼠标时通过按 Alt 键来模拟此功能。

创建了流以后,可以对流进行保存、添加注解,将其添加到工程。从文件主菜单中,选择流属性还可以为流设置各种选项,如优化、日期和时间设置、参数和脚本。使用流属性对话框中的消息选项卡,可以轻松查看有关运行、优化和模型构建和评估所用时间等流操作有关的消息,流操作的错误消息也将在这里报告。


SPSS Modeler 管理器





可以使用流选项卡打开、重命名、保存和删除在会话中创建的多个流。

图 5. 流管理器

输出选项卡中包含由 SPSS Modeler 中的流操作生成的输出或图形文件。您可以显示、保存、重命名和关闭此选项上列出的表格、图形和报告。

图 6. 输出文件管理器

模型选项卡是管理器选项卡中功能最强大的选项卡。该选项卡中包含所有模型块,如当前会话中生成的模型,通过 PMML 导入的模型等。这些模型可以直接从模型选项卡上浏览或将其添加到工作区的流中进行数据分析。

图 7. 模型管理器

窗口右侧底部是工程工具,用于创建和管理数据挖掘工程(与数据挖掘任务相关的文件组)。有两种方式可查看您在 SPSS Modeler 中创建的工程 - 类视图或 CRISP-DM 视图。

依据跨行业数据挖掘过程标准 CRISP-DM选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手,使用 CRISP-DM 工具都会使您事半功倍。

图 8. 工程工具 -CRISP-DM 视图

类选项卡提供了一种在 SPSS Modeler 中按类别(按照所创建对象的类别)组织您工作的方式。此视图在获取数据、流、模型的详尽目录时十分有用。

图 9. 工程工具 - 类视图



建模简介





模型是一组规则、公式或方程式,可以用它们根据一组输入或变量来预测输出。例如,一家财务机构可根据对过往申请人的已知信息,使用模型预测贷款申请人可能存在优良还是不良风险。预测结果是预测性分析的中心目标,了解建模过程是使用 SPSS Modeler 的关键。

图 10. 简单的决策树模型

本示例使用 CHAID(卡方自动交互效应检测)模型,通过一系列决策规则对记录进行分类(并预测用户响应),例如:

  1. 如果收入 = 中等
  2. 并且卡 <5
  3. 则 ->“优良”
复制代码


本示例旨在介绍使用 SPSS Modeler 进行数据挖掘的基本流程,其中大部分概念可广泛应用于 SPSS Modeler 中的其他建模类型。

无论要了解哪种模型,均需要首先了解进入该模型的数据。此示例中的数据包含有关银行客户的信息。其中使用了下列字段:

表 2. 数据字段  
字段名

描述


Credit_rating

信用评价:0= 不良,1= 优良,9= 丢失值


年龄

客户年龄


收入

收入水平:1= 低,2= 中,3= 高


Credit_cards

持有的信用卡数量:1= 少于五张,2= 五张或更多


教育

教育程度:1= 高中,2= 大学


Car_loans

贷款的汽车数量:1= 没有或一辆,2= 超过两辆


银行可维护银行贷款客户的历史信息,包括客户是正常还贷(信用评价 = 优良)还是在拖欠贷款(信用评价 = 不良)。银行希望使用现有的数据建立一个模型,允许他们预测未来贷款申请人拖欠贷款的可能性。使用决策树模型,您可分析这两组客户的特征,并预测不良客户拖欠贷款的可能性。

构建流

添加使用 pm_customer_train1.sav的 Statistics 文件源节点,该文件位于 SPSS Modeler 安装程序的 Demos 文件夹中。(您可以在文件路径中指定 $CLEO_DEMOS/ 作为引用此文件夹的快捷方式。请注意,路径中必须使用正斜线而非反斜线,如图所示。)

图 29. 源节点

添加类型节点,然后选择响应(response)作为目标字段(设置其角色为目标)。将此字段的测量设置为标志。

对于以下字段,将角色设置为无:customer_idcampaignresponse_datepurchasepurchase_dateproduct_idRowidX_random。因为这些字段(如用户 ID)对于构建模型其实是无意义的,把角色设置为无以后,构建模型时将自动忽略这些字段。

单击类型节点的读取值按钮以确保值获得实例化。

常见问题:当您在运行流的时候出现以下错误时,可以在类型节点中(流中没有类型节点时请先手动添加一个)单击读取值然后再运行流:


  • 为字段 campaign 指定的类型不足
  • 字段 campaign 未知,或有未实例化的类型

我们的源数据包含四项不同活动的信息,每个活动针对不同类型的客户。这些活动在数据中编码为整数,为了方便记住每个整数所代表的帐户类型,让我们为每个整数都定义一个标签。

在活动(campaign)字段的行上,单击值列中的条目。从下拉列表选择指定。

图 30. 类型节点

在标签列中,键入活动字段四个值中每个值将显示的标签。单击确定。

图 31. 类型节点 - 指定标签

现在我们可在输出窗口中显示标签而非仅仅是整数了。


  • 将表节点附加到类型节点。
  • 打开表节点,然后单击运行。
  • 在输出窗口上,单击显示字段和值标签工具栏按钮(左起第三个)以显示标签。
  • 单击确定关闭输出窗口。
图 32. 输出标签的表格

尽管数据包含有关四项不同活动的信息,但每一次的分析应集中关注其中一项活动。由于 Premium account 活动(在数据中编码为 campaign=2)中的记录数最多,因此可以使用选择节点实现仅在流中包含这些记录。

图 33. 选择节点

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:SPSS Modeler IBM SPSS MODELER modele model 人工智能 解决方案 统计学 技术 开发

已有 1 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 60 + 60 + 5 + 5 + 5 精彩帖子

总评分: 经验 + 60  论坛币 + 60  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

本帖被以下文库推荐

心晴的时候,雨也是晴;心雨的时候,晴也是雨!
扣扣:407117636,欢迎一块儿吐槽!!
沙发
lzguo568 在职认证  发表于 2015-4-12 14:45:16 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 16:06