楼主: wangtao599
12492 28

[求助]数据预处理中特异值的处理 [推广有奖]

  • 0关注
  • 1粉丝

钓鱼翁

已卖:68份资源

硕士生

47%

还不是VIP/贵宾

-

威望
0
论坛币
45441 个
通用积分
0.3600
学术水平
6 点
热心指数
8 点
信用等级
3 点
经验
3360 点
帖子
180
精华
0
在线时间
96 小时
注册时间
2004-11-1
最后登录
2021-5-30

楼主
wangtao599 发表于 2006-2-18 11:50:00 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请问在横截面数据中对于特异值的剔出和剔出标准是怎样的?数据的探索性分析是否应在剔出了特异值之后再进行?数据的处理步骤主要包括哪几部?请那位学友给与解答。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据预处理 预处理 横截面数据 探索性分析 截面数据 数据 预处理 特异

回帖推荐

随机过程 发表于3楼  查看完整内容

我在C.R.RAO 的《统计与真理》中好像看到过,上面说异常值在无法重复试验的情况下,目前还是统计中无法解决的难题!通常的处理方法有三种:1,去掉异常值。2,去掉异常值并补充一个新值(新值可通过某种算法得到)。3,保留异常值! 其实上述三种处理方法的原理很简单:1,2是把异常值当作小概率事件,3是把异常值当作大概率事件——即具有“厚尾”或“肥尾”的概率分布! 我似乎没有直接回答你的问题!而是从理论的角度给你指了 ...

本帖被以下文库推荐

天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

沙发
s04085590 发表于 2006-2-18 16:58:00
你看 参考一下东南大学出版社《统计诊断》,韦博成著
天下风云出我辈,一入江湖岁月催;皇图霸业谈笑间,不胜人生一场醉    ——《东方不败》

藤椅
随机过程 发表于 2006-2-18 23:50:00

我在C.R.RAO 的《统计与真理》中好像看到过,上面说异常值在无法重复试验的情况下,目前还是统计中无法解决的难题!通常的处理方法有三种:1,去掉异常值。2,去掉异常值并补充一个新值(新值可通过某种算法得到)。3,保留异常值!

其实上述三种处理方法的原理很简单:1,2是把异常值当作小概率事件,3是把异常值当作大概率事件——即具有“厚尾”或“肥尾”的概率分布!

我似乎没有直接回答你的问题!而是从理论的角度给你指了个方向!如果你是只注重应用,那么楼上指的书你不妨看看!

已有 1 人评分经验 论坛币 收起 理由
胖胖小龟宝 + 10 + 10 热心帮助其他会员

总评分: 经验 + 10  论坛币 + 10   查看全部评分

板凳
wangtao599 发表于 2006-2-19 11:22:00

感谢两位学友的指教,我曾请教过一位统计专家,他说好像是在均数加减标准差乘以三倍,这以外的数就是特异值的范围。

《统计诊断》这本书我没有,也还没有找到,不知谁还可以给我指教一下?

我现在正在做论文,800多家企业的数据大约有10%左右属于这位专家的奇异值范围,是不是都应剔除,剔除的数量大不大?请各位高手予以指点。多谢。

[此贴子已经被作者于2006-2-28 17:28:02编辑过]

天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

报纸
zhaosweden 发表于 2006-2-19 19:38:00

For time series data (especially for ARMA model) there are standard method for detecting the outliers.

Concerning OLS-type regression type, robust method include med-med median of median (such algorithm may not be available with usual canned pachage such as SPSS. Eviews)

I have no idea about panel.

But if you think that some 企业 come from different population, then you can simply ignore them or use some Dummy to handle it.

地板
wangtao599 发表于 2006-2-19 20:47:00
我用的是企业类的横截面财务数据,计量软件是spss13.0,你的意思是不是将特异值剔除,我用spss挑出了近80个特异值,是否都要剔除?请解答。
天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

7
随机过程 发表于 2006-2-19 22:09:00

要看你的分析中用的是什么统计方法?是回归分析吗?

剔除异常值并不是什么好办法,或者我上面的意思已经说明,用任何方法处理异常值都会被别人挑出毛病!

要想做一个好的实证分析,那么你需要做的工作还太多了!(我可以妄言,中国大陆目前还没有像样的实证分析,像样点的文章最多算做是一个好的计量经济学作业,当然产生这种现状的原因很多,我们不需多言)

如果你仅仅想结果漂亮,那么方法就太多了(最小中位数二乘法,theil回归以及一些非参数方法都可以解决异常值问题),不过这种做法在学术上不严谨,而且结果不好解释,容易被人提出质疑!

意思是告诉各位网友,不论写论文还是搞学术,要么就严谨到底,要么就得过且过,处于中间状态将是很尴尬的!

8
wangtao599 发表于 2006-2-19 22:50:00

我是用的回归分析方法,而且结果并不是我所看重的,主要是用哪种方法?我看国外的一些论文也都是剔除outliers(特异值或叫离群值)后,使数据成正态分布,再进行分析,其解释是为了消除一些强干扰点对于分析结果的影响。我的数据也是如果不剔除出特异值的话,不会呈显著性相关,但是如果去除了特异值(由spss软件自动标出),我的假设线性关系就会在一定水平(0.15)上显著。分析结果的相关与不相关对于我的论文并不是很重要,我的论文主要是探索性的,所以方法对我比较重要,因此我才在这里求教诸位,请大家再给我以指点,请大家多多帮助,在此多谢。

天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

9
s04085590 发表于 2006-2-20 20:19:00

"我看国外的一些论文也都是剔除outliers(特异值或叫离群值)后,使数据成正态分布,再进行分析!"

阁下的这段话我觉得你对异常点理解有误! 首先是并不是有意识得去除异常点是它成为正太分布!先确定它属于什么分布,再决定是异常点! 同一披数据,你用不同得分布去拟合,相应得异常点是不一样的!同时你还要注意异常点和强影响点的区别,不能简单删除了之。

正太分布的异常点检验是最简单的一种,也有比较理论上比较完善的一类工作。韦博成教授的《

统计诊断引论》是系统介绍这一方面工作国内最好的著作之一。

天下风云出我辈,一入江湖岁月催;皇图霸业谈笑间,不胜人生一场醉    ——《东方不败》

10
s04085590 发表于 2006-2-20 20:26:00

还有一种方法是在不多异常点的情况下使用robust方法去处理。正如另外一位楼上所说,使用任何一个异常点检验方法都是可以挑出毛病的!但是我觉得统计的思想是:“no best,only better". 因此从学术的研究而言,你能够使用一种方法处理你现在的数据,在没有更好的异常点方法提出之前,你的工作还是有实用价值的! 到现在,cook(1986,JRSSB)的方法还在使用,就是因为目前没有更好更完善的方法提出,各种各样的方法或多或少的存在那样这样的毛病!

以上观点,仅供参考!

天下风云出我辈,一入江湖岁月催;皇图霸业谈笑间,不胜人生一场醉    ——《东方不败》

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-5 23:59