楼主: xingzhe1204
4676 8

[其他] 正态分布 与 因子分析 [推广有奖]

  • 2关注
  • 1粉丝

小学生

已卖:36份资源

博士生

79%

还不是VIP/贵宾

-

威望
0
论坛币
1801 个
通用积分
2.8010
学术水平
3 点
热心指数
4 点
信用等级
0 点
经验
4844 点
帖子
228
精华
0
在线时间
239 小时
注册时间
2005-12-12
最后登录
2024-4-16

楼主
xingzhe1204 在职认证  企业认证  发表于 2016-10-2 16:49:04 |AI写论文
100论坛币

第一,笔者想做综合评价,故构建了一个3级指标体系,包含14个三级细项指标,涉及31个省份,15年(1996-2010)。从偏度系数、峰度系数来看,即使在宽松的标准下,14个原始变量中,也有8个变量不服从正态分布;故按照友人的建议,对原始数据取自然对数,结果,新数据都近似服从正态分布。

第二,既然,原始数据不服从正态分布,而新数据近似服从正态分布,那么接下来,可能有两种做法:
      一是在新数据(取自然对数后)的基础上,重新进行 相关性检验、无量纲化、权重确定,根据 新无量纲化值 和 新权重,加权求和,得到综合评价结果。但由于取自然对数,会缩小同一指标在不同省份之间、不同年份之间的差异,最终会缩小不同省份之间、不同年份之间的综合评价分值的差异。
      二是在新数据(取自然对数后)的基础上,重新进行 相关性检验、权重确定,但无量纲化值 不变,依然取自 原始数据,把 新权重 与 旧无量纲化值 加权求和,得到综合评价结果。这样,似乎可以最大程度保留原始数据信息,最大程度呈现 治理质量的 阶段差异和空间差异。


我的问题:现有文献无法给出更多启示,下一步应如何选择?可有文献依据?



最佳答案

qwaszxleo 查看完整内容

第二种是错的,就像你不知道方法A好还是方法B好,就用方法A的上部分+方法B的下部分,学术上这么妥协就是乱来; 第一种是常用的解决办法,但是否能用取决于数据结构,若指标值的差异很大,就会存在你担心的问题,这么做就是有问题的。你需要不依赖于数据分布的降维或者说分类方法,如比较流行的无监督学习(Deep Learning等),看学习出来的各指标在各体系里的权重,下载个包用起来还是很方便的,也值得花半天粗略学一下(可以百 ...
关键词:因子分析 正态分布 相关性检验 31个省份 自然对数 正态分布 相关性 中国 贵州 上海

回帖推荐

malearning 发表于3楼  查看完整内容

首先为你的认真点赞,因为很多人做因子分析不会检验数据是否服从正态分布。既然因子分析是基于多元正态分布的,数据如果偏离正态分布很多,分析的结果也不令人放心。你对原始数据做对数变换后,原来不服从正态分布的数据现在近似服从了,数据的峰度和偏度都有效改善,不仅更适合做因子分析,也更适合做评分。所以,我建议你选择第一个方案,用新数据计算权重,再用新数据计算评分。不必担心对数变化会缩小评分差距,因为如果数据峰 ...

qwaszxleo 发表于2楼  查看完整内容

第二种是错的,就像你不知道方法A好还是方法B好,就用方法A的上部分+方法B的下部分,学术上这么妥协就是乱来; 第一种是常用的解决办法,但是否能用取决于数据结构,若指标值的差异很大,就会存在你担心的问题,这么做就是有问题的。你需要不依赖于数据分布的降维或者说分类方法,如比较流行的无监督学习(Deep Learning等),看学习出来的各指标在各体系里的权重,下载个包用起来还是很方便的,也值得花半天粗略学一下(可以百 ...
执子之手,与之偕老~

沙发
qwaszxleo 发表于 2016-10-2 16:49:05
第二种是错的,就像你不知道方法A好还是方法B好,就用方法A的上部分+方法B的下部分,学术上这么妥协就是乱来;

第一种是常用的解决办法,但是否能用取决于数据结构,若指标值的差异很大,就会存在你担心的问题,这么做就是有问题的。你需要不依赖于数据分布的降维或者说分类方法,如比较流行的无监督学习(Deep Learning等),看学习出来的各指标在各体系里的权重,下载个包用起来还是很方便的,也值得花半天粗略学一下(可以百度一些学习笔记),其优点是能处理高维问题不依赖分布可扩展性强,缺点是不像因子分析这么直观,其他方法还包括聚类分析等。

好吧,没论坛币了,望采纳,谢谢!
已有 1 人评分经验 收起 理由
giresse + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

藤椅
malearning 发表于 2016-10-3 08:42:44
首先为你的认真点赞,因为很多人做因子分析不会检验数据是否服从正态分布。既然因子分析是基于多元正态分布的,数据如果偏离正态分布很多,分析的结果也不令人放心。你对原始数据做对数变换后,原来不服从正态分布的数据现在近似服从了,数据的峰度和偏度都有效改善,不仅更适合做因子分析,也更适合做评分。所以,我建议你选择第一个方案,用新数据计算权重,再用新数据计算评分。不必担心对数变化会缩小评分差距,因为如果数据峰度很高,就会出现少数对象的评分很高,而多数对象的评分很低的现象,一般也要设法通过某种变换改善评价结果。
已有 1 人评分经验 收起 理由
giresse + 60 精彩帖子

总评分: 经验 + 60   查看全部评分

板凳
xingzhe1204 在职认证  企业认证  发表于 2016-10-4 22:24:01
qwaszxleo 发表于 2016-10-4 21:38
第二种是错的,就像你不知道方法A好还是方法B好,就用方法A的上部分+方法B的下部分,学术上这么妥协就是乱来 ...
第一种是常用的解决办法,但是否能用取决于数据结构,若指标值的差异很大,就会存在你担心的问题,这么做就是有问题的。
---如何 客观 去判断:该数据结构是否可以用第一种方法?
可有检验方法? 请赐教,谢谢哈

报纸
xingzhe1204 在职认证  企业认证  发表于 2016-10-5 19:37:06
qwaszxleo 发表于 2016-10-4 21:38
第二种是错的,就像你不知道方法A好还是方法B好,就用方法A的上部分+方法B的下部分,学术上这么妥协就是乱来 ...
更要命的是,取自然对数之后,存在大量负数,如何对夹杂  负数、正数的 数据进行无量纲化?

地板
xingzhe1204 在职认证  企业认证  发表于 2016-10-5 20:14:28
xingzhe1204 发表于 2016-10-5 19:37
更要命的是,取自然对数之后,存在大量负数,如何对夹杂  负数、正数的 数据进行无量纲化?
已搞定了哈

7
qwaszxleo 发表于 2016-10-5 22:45:27
xingzhe1204 发表于 2016-10-5 20:14
已搞定了哈
刚上,嗯,解决了就好

8
jhjkevin111 发表于 2016-10-23 08:29:40 来自手机
xingzhe1204 发表于 2016-10-5 20:14
已搞定了哈
亲,怎么解决的?求指点?

9
xingzhe1204 在职认证  企业认证  发表于 2016-11-4 17:51:38
jhjkevin111 发表于 2016-10-23 08:29
亲,怎么解决的?求指点?
修改原指标单位,确保 取自然对数后 的值 大于零

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 01:15