spss中tree分析-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

SPSS软件培训

>>

spss中tree分析

spss中tree分析

发布:linshuang850426 | 分类:SPSS软件培训

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

获取电子版《CDA一级教材》

完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。

完整电子版已上线CDA网校,累计已有10万+在读~ 教材严格按考试大纲编写,适合CDA考生备考,也适合业务及数据分析岗位的从业者提升自我。

Tree-分析[折叠]建立得分模型分类树过程最实用的特征和最有力的功能之一就是有从所建模型中提取数据到其他数据文件中参与预测的能力。例如,基于包含人口统计信息和车辆购买价格信息的数据文件,我们能够建立一个模型 ...
免费学术公开课,扫码加入


Tree-分析

[折叠]建立得分模型

分类树过程最实用的特征和最有力的功能之一就是有从所建模型中提取数据到其他数据文件中参与预测的能力。例如,基于包含人口统计信息和车辆购买价格信息的数据文件,我们能够建立一个模型,用于预测有相似人口统计特征的人中有多少人可能购买新车 ——然后将这个模型用于有人口统计信息但没有车辆购买信息的数据文件。

一、建立模型

从菜单中选择:

Analyze

Classify

Tree...

选择 Price of primary vehicle 作为因变量。

选择所有剩余变量作为自变量。(过程会自动排除对最终模型没有显著性贡献的变量。)

在生成方法下来列表框中选择 CRT(分类和回归树。适用于二元变量分类)。

点击 Output。

点击 Rules 页。

选择 (打勾) Generate classification rules.

Syntax栏中选择 SPSS。

Type栏中选择Assign values to cases.

在Export rules to a file 中打勾并输入文件名和路径。

注意:文件名和路径必须写下来,因为不久你会用到这个文件。如果不包括路径,你就不会知道文件保存在什么地方。可以使用浏览按钮寻找(有效的)路径。

二、评估模型

在应用模型到其他数据文件之前,你可能想证实使用原始数据建立的模型合理吗。

(1) 模型汇总

模型汇总表显示只有三个自变量对最终模型有显著性的贡献: income, age, 和education。如果你想在其它数据中使用这个模型,知道这些非常重要。因为这个模型中使用的自变量必须出现在其它数据文件中。

汇总表也显示树模型自身可能比较复杂因为它有29个节点15个端点。 如果模型可信这根本就无所谓,使用实际的模型比简单的模型更加容易解释或描述。当然,从实际考虑,你可能不希望模型里有太多的自变量。本例中,这不是问题因为只有三个自变量包含在最终模型中。

(2) 树形图

树形图有许多节点以致立刻在目测的范围内看到节点信息全貌很困难。使用tree map可以解决这个问题。

在Viewer 窗口双击树,打开树编辑器。从树编辑器菜单中选择:

View

Tree Map

tree map 显示完整的树,在窗口四边拖动可以改变窗口的大小,图形按照窗口的大小自动显示完整的图形。 tree map 中红色区域是当前显示的树。 可以使用 tree map 浏览树和选择节点。 对连续因变量,每个节点显示因变量的均值和标准差。根节点显示购车价格的总平均值约为 29.9 (千美元), 标准差为 21.6.

节点1表示收入小于75(千美元)的购买者,购车价格平均只有 18.7。 与此相反,在节点2,收入大于75的购买者,购车均价为60.9。进一步研究显示年龄和教育与购车价格有相关性,但是目前我们主要关心模型的实际应用而不是它的成分的细节检查。

(3) 风险估计

到目前为止提供不出什么结果证明模型如何好。模型性能的一个指示因子是风险估计。对连续因变量而言,风险估计是节点内方差的度量,单独看它不能告诉你多少信息。方差小表示模型较好,但是方差大小是相对观念,例如,如果价格是按照个位而不是千位计算,风险估计将相差上千倍。

要提供对连续因变量风险估计有意义的解释还需要做一点工作:

总方差等于节点内(误差)方差加上节点间(已解释)方差。 节点内方差是风险估计值:68.485. 总方差是没有考虑自变量前因变量的方差,它在根节点上。 在根节点的标准方差显示是 21.576;所以总方差是这个值的平方465.524. 未解释的方差是 68.485/465.524 = 0.147。由模型解释的方差是 1–0.147 = 0.853,或 85.3%,它表示这是个相当不错的模型。(类似的解释是分类因变量的总正确分类率)。三、应用模型到其它数据集

已经确定模型相当不错,现在可以应用模型到包含年龄,收入和教育变量的其它数据文件中,并产生一个新变量,它表示消费者购车的预测价格。

这种处理手法就是常常提到的得分模型。

在生成模型时,我们定义了指定个案保存在文本文件值的“规则” —用SPSS命令句法形式。现在我们在那个文件中使用命令产生另一个数据文件的得分。

SPSS安装文件夹 \sample_files 下打开数据文件 tree_score_car.sav 。

接下来从SPSS菜单中选择:

File

New

Syntax

在命令句法窗口中键入:

INSERT FILE= 'c:\temp\car_scores.sps'.

如果使用不同的文件名或路径,可以做适当的改变。

有两个新变量增加到数据文件中:

nod_001 包含按照模型预测的端点数。 pre_001 包含购车价格的预测值。 因为我们需要些规则为端点指定值,可能的预测值数就是与端点相同的数。例如,预测节点数为10的个案都有相同的购车价格预测值30.56。 这同原始模型中端点10的均值不太一致。

虽然你将模型用在因变量值未知的数据文件中,在这个例子中,我们使用实际包含哪些信息的数据文件以便你能比较模型预测值和实际值。

从菜单中选择:

Analyze

Correlate

Bivariate...

选择 Price of primary vehicle 和 pre_001。点击 OK 运行该过程。

相关系数0.92 表示在实际购车价与预测购车价间存在很高的正相关,它也表示模型拟和良好。

你能使用分类树过程建立模型然后应用到其它数据文件中预测结果。目标数据文件必须有与在最终模型自变量有相同名的变量,包括相同的度量单位和相同的缺失值。然而,排除在最终模型外的即不是因变量又不是自变量需要出现在目标数据文件中。

「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-330780-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
数据分析师 人大经济论坛 大学 专业 手机版
联系客服
值班时间:工作日(9:00--18:00)