楼主: 时光永痕
956 0

[数据挖掘新闻] 建模步骤 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

4%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-11-30 19:55:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
建模步骤
回归分析是一种在变量之间寻找功能关系的方法。该关系以方程或模型的形式表示,该方程或模型描述了响应变量或因变量与一个或多个解释变量或预测变量之间的联系。
回归分析包括以下步骤:
问题陈述-回归分析通常从问题的表述开始,其中包括分析必须回答的问题。这是回归分析的第一步,也是最重要的一步。这很重要,因为定义不正确的问题可能会导致工作浪费。因此,通常可以选择不相关的变量集,或者选择错误的统计分析方法。未精心制定的问题可能会导致模型选择错误。
潜在相关变量的选择-问题陈述之后的下一步是选择一组变量,这些变量被认为是预测变量(由领域专家完成),这些变量将能够解释或预测响应变量。响应变量用Y表示,解释性变量或预测变量用X 1,X 2,...表示。。。,Xp  其中p表示预测变量的数量。
数据收集-选择可能相关的变量之后的下一步是从研究环境中收集数据以用于分析。有时,数据是在受控的环境中收集的,因此,并非主要关注的因素可以保持恒定。通常,数据是在非实验条件下收集的,在这种情况下,研究人员几乎无法控制。在任何一种情况下,收集的数据均包含对n个受试者(通常也称为个人)的观察结果。这n个观察值中的每一个都包含对p个潜在相关变量中的每个变量的测量值。
数据通常记录在行和列中。甲列代表一个变量,而行表示的观察,这是一组p为单个受试者即用于响应变量的一个值和对于每一个中的一个值+ 1个值p的预测因子。每个变量都可以分类为定量或定性。在响应变量为二进制的情况下使用的一种技术称为逻辑回归。在回归分析中,预测变量可以是定量的或定性的。但是,出于计算目的,必须将定性变量(如果有)编码为一组指标变量或虚拟变量              。 如果所有预测变量都是定性的,则数据分析中使用的技术称为方差分析技术(回归分析的特殊情况)。如果一些预测变量是定量的而其他是定性的,则回归  
这些情况下的分析称为协方差分析。
模型规范- 最初,通常由研究领域的专家根据他们的知识,客观或主观判断来指定用来解释响应变量和一组预测变量之间关系的模型的形式。然后可以基于收集的数据通过分析确认或拒绝假设的模型。请注意,仅需以形式指定模型,但可以
仍然取决于未知参数。我们需要选择函数的形式
f  (X1,X2, …,Xp) 。此函数可分为两种类型:线性和非线性。注意,这里的线性(非线性)一词并未描述Y与X1,X2, …,Xp之间的关系。这与以下事实有关:回归参数是线性(非线性)输入方程式的。所有可以转换为线性函数的非线性函数都称为线性化函数。因此,线性模型的类别实际上更广泛,因为它包含所有线性化函数,但是并非所有非线性函数都是线性化的。具有一个预测变量的回归模型称为简单回归模型          。具有多个预测变量的模型称为多元回归模型。当我们只有一个响应变量时,回归分析称为单变量回归,而在我们有两个或多个响应变量的情况下,该回归称为多元回归。简单回归和多元回归不应与单变量回归与多元回归相混淆。   
拟合方法的选择– 定义初始模型并收集数据后,下一步是根据收集的数据估算模型的参数。这也称为参数估计或模型拟合。最常用的估计方法称为最小二乘法。在某些假设下,最小二乘法会产生具有所需属性的估计量。在某些情况下(例如,当一个或多个假设不成立时),其他估计方法可能优于最小二乘法。可以考虑的其他估计方法是最大似然法,岭法和主成分法。
模型 拟合-分析的下一步是使用选择的估算方法估算回归参数或使模型适合所收集的数据。回归参数……的估计由0,1,……,p表示。然后,估计的回归方程变为0 + 1 1 + 2 2 +….. + pp
参数顶部的帽子表示相应参数的估计值。该值(发音为Y hat)称为拟合值。使用该方程式,我们可以计算n个拟合值,对于我们数据中的n个观察值中的每个观察值之一。它可用于预测在我们的数据中未观察到的预测变量的任何值的响应变量。在这种情况下,获得的Y称为预测值。拟合值和预测值之间的差异在于,拟合值是指以下情况:用于预测变量的值对应于我们数据中的n个观察值之一,但是对于任何一组预测变量值都获得了预测值。通常不建议针对远远超出我们数据范围的一组预测变量的值来预测响应变量。
模型验证和批评 -统计方法(例如回归分析)的有效性取决于某些假设。通常对数据和模型进行假设。分析的准确性和从分析得出的结论在很大程度上取决于这些假设的有效性。回归分析在这里被视为一个迭代过程,在该过程中,输出用于诊断,验证,批判并可能修改输入。必须重复该过程,直到获得满意的输出为止。甲满意的输出是估计的模型,其满足的假设和拟合数据相当好。  
使用选择的模型来解决所提出的问题 -回归方程的明确确定是分析的最重要结果。它是Y(响应变量)与预测变量X1,X2,...之间的关系的摘要。。。,Xp。该方程式可以用于多种目的。它可用于评估各个预测变量的重要性,分析涉及更改预测变量值的策略的效果,或预测给定一组预测变量的响应变量的值。   
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:建模步骤 统计分析方法 多元回归模型 最小二乘法 协方差分析

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-23 21:45