楼主: wangtao599
12553 28

[求助]数据预处理中特异值的处理 [推广有奖]

11
wangtao599 发表于 2006-2-20 23:59:00
多谢楼上各位的指教,我在比较统计方法的剔除方法后,决定采用最简单也是最直接的办法,即用经济意义上的筛选方法,在净资产收益率大于+100%或小于-100%的企业作为异常值去除;同时,资产负债率大于150%的企业观察值也予以剔除。剔除后的数据基本成正态分布。请各位评判一下这种办法。
天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

12
seebaby 发表于 2006-2-21 22:20:00

那如果数据中有明显的奇异值,但是处理方法是非参数中的秩和检验,那是否剔除奇异值对结果有影响吗?因为非参是不要求数据服从正态分布的。

13
zhangg 发表于 2006-2-21 23:54:00

“我用的是企业类的横截面财务数据,计量软件是spss13.0,你的意思是不是将特异值剔除,我用spss挑出了近80个特异值,是否都要剔除?请解答。”

如果你剔掉了,又在理论上或现实中找不到根据,很明显,你是为求个结果而玩弄数据。因为你在做empirical accouting.

14
wangtao599 发表于 2006-2-22 16:22:00

我是选择经济意义上的正常状态企业,即在净资产收益率大于+100%或小于-100%的企业作为异常值去除;同时,资产负债率大于150%的企业观察值也予以剔除。这些都是非正常经营的企业或有数据录入错误的企业,我这种方法有什么缺陷,请学友指点,

天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

15
s04085590 发表于 2006-2-22 20:10:00

I agree with the point with zhang veru much. Why do you only use normal distribution to fit these data? Maybe you can use other distribution such as t distribution to fit the data set and get better result.

天下风云出我辈,一入江湖岁月催;皇图霸业谈笑间,不胜人生一场醉    ——《东方不败》

16
wangtao599 发表于 2006-2-23 20:50:00
多谢,但是我只是想探求股权结构与绩效之间的线性关系。还是请各位看看我的这种剔除办法好吗?因为我想如果企业经营状态不正常的话,也就无法推断出正常状态下企业的趋势。
天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

17
随机过程 发表于 2006-2-23 22:23:00
以下是引用wangtao599在2006-2-23 20:50:00的发言:
多谢,但是我只是想探求股权结构与绩效之间的线性关系。还是请各位看看我的这种剔除办法好吗?因为我想如果企业经营状态不正常的话,也就无法推断出正常状态下企业的趋势。

你给出的概念很混乱,回答起来会很困难!

首先,既然是研究股权结构与绩效之间的关系,那么对于每一个企业,都有相应的股权结构,也有相应的绩效,作为样本的每个企业,都对总体的统计推断起着一定作用,怎么能随便删除呢?

其次,你所说的“正常企业”,“非正常企业”,不知是如何判断,如果单从收益率或资产负债率来区分,似乎不可行!举例来说,一个企业,其股权结构很合理但是绩效却不好,那么你应该认为其是非正常企业了???那么如果股权结构不合理但是绩效却很好的企业占多数的话,那么反面的结论不就是正确的了吗?

最后,再说次思路吧:如果有演绎结果的理论告诉你,股权结构与绩效之间有着线性关系,那么对异常值进行处理是可行的!

如果没有理论支持,而只是你自己想探索的一种关系,那么每个样本的信息都是重要的,不能随便删除!要先做描述性统计,粗略看一下散点图,然后分析一下产生这种异常值的原因是什么,不能着急对数据进行处理!

[此贴子已经被作者于2006-2-24 0:17:42编辑过]

18
wangtao599 发表于 2006-2-24 12:26:00

首先需要感谢随机过程的认真解答,你的指点使我受益匪浅,十分感谢。

其次,我想说的是我最终没有从统计学的角度来剔除特异值,而是选择了从公司财务的角度来剔除极端非正经营状态企业。我是探索股权集中度与企业绩效的关系,因此没有合理或不合理的股权结构之说。从公司财务的角度来看,非正常经营的企业数值会对于企业样本群正常发展的趋势的分析造成影响(LLSV),从这一方面来讲,企业资产负债率大于100%,就是资不抵债、面临破产,考虑的时间的延迟和中国的本身情况,我放宽到150%,同时也是为了保留尽可能多的数据样本,此外,正常企业(以上市公司为例)的净资产收益率一般在5%-20%之间,我的大部分样本也在这个区间内(我的企业数据不是上市公司的),在上市公司类似的分析中,一般是去掉+或-80%净资产收益率的企业,为什么?是因为要么是收益好的惊人(一年就几乎收回本钱,或是太差,一年就亏掉了净资产值,而我放宽到100%再去掉特异值,也是基于这种考虑。这样剔除特别异常的企业,来看处于相对比较正常状态的样本,再分析股权的变化对于企业绩效的影响,是否得到的结果更可信,请指正。再次感谢各位,我这几天通过这个问题在计量上涨进了不少。

天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

19
随机过程 发表于 2006-2-24 14:04:00

“分析股权的变化对于企业绩效的影响”,企业绩效只和股权结构有关吗??如果遗漏自变量,那么产生异常值则是很正常的事情,而且删除异常值会扭曲事实!

截面数据建模一般都是理论先导型!没有理论支持的话,对数据作任何处理都将是游戏!!先把影响企业绩效的所有因素都找出来吧!!从经济理论,会计理论,金融理论上找,而不是从数据的统计特征上找!

20
wangtao599 发表于 2006-2-24 22:40:00

我的论文先是建立的理论,我的专业是公司金融,这方面的理论一直是我研究的对象,我到是忘了告诉你了,我控制了影响绩效的其他变量,我设计了5个行业虚拟变量,以控制不同行业因素对于绩效的影响,还设计了企业规模自变量来控制规模效应对绩效的影响,以及设计了财务杠杆变量也就是资产负债率来控制资金投入对于绩效的影响。在这些控制变量的影响下,来分析股权比例对于企业绩效的影响。这是我的回归模型的主要内容。请再指正。

天路遥,人世远,凝眸处,沧海桑田。 为谁痛苦,为谁嬉笑,任光阴凋尽朱颜。 哪个出将入相,哪个成佛登仙,到头来或为黄土, 或为轻烟。 且去世外垂钓,手有青青竹竿,莫问卿卿何处去,回头看见桃花仙。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2026-1-2 12:42