楼主: guokuidai
10197 13

[统计软件与数据分析] 关于实证分析中数据预处理的问题 [推广有奖]

  • 9关注
  • 3粉丝

已卖:4份资源

讲师

72%

还不是VIP/贵宾

-

威望
0
论坛币
18769 个
通用积分
8.8192
学术水平
1 点
热心指数
2 点
信用等级
0 点
经验
83492 点
帖子
75
精华
0
在线时间
1078 小时
注册时间
2015-1-29
最后登录
2026-1-3

楼主
guokuidai 在职认证  发表于 2016-5-18 17:06:54 |AI写论文
100论坛币
RT,各位在用软件跑数据前,是如何对数据进行预处理的?缺失值,异常值,数据变换……?欢迎讨论,集思广益。撒点币聊表心意。

关键词:数据预处理 实证分析 预处理 集思广益 缺失值 如何 软件

沙发
窝窝牛 发表于 2016-5-18 19:02:51
我也有同样的困惑,求解答

藤椅
ljcwsh 发表于 2016-5-18 19:56:49
在用软件跑数据前,进行数据清洗是非常关键的一步。主要内容有(1)变换数据格式为你分析时所需要的标准格式,包括日期,顺序等要转换成与你的软件matlab,SAS,STATA等相适用的格式;(2)注意异常值和缺失值,异常值要去除,缺失值要插补;(3)对于公司金融等领域的研究,还需要注意用winsorize等所谓处理的方法将极端值处理掉;(4)清洗数据最方便的软件是SAS,可以处理大量的数据,并且处理的程序一定要养成一段程序跑完所有过程的习惯。即输入原始数据,用一个清洗程序处理成你所需要的格式,做到一键点击大功告成的效果。希望以上对你有所帮助。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
admin_kefu + 35 + 5 + 5 热心帮助其他会员
guokuidai + 5 + 2 + 2 + 2 鼓励积极发帖讨论

总评分: 论坛币 + 40  学术水平 + 7  热心指数 + 7  信用等级 + 2   查看全部评分

板凳
chenxin113 发表于 2016-5-18 21:51:34
找异常、缺失时候,我比较喜欢画图(直观,异常值立刻就暴露了)、计算每个量的均值方差最大最小。
发现缺失值以后,我会考虑两种方式:一个是把这条记录全删了,简单粗暴;或者插补,具体怎么补就要看问题是什么了。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
admin_kefu + 20 + 5 + 5 热心帮助其他会员
guokuidai + 3 + 2 + 2 + 2 观点有启发

总评分: 论坛币 + 23  学术水平 + 7  热心指数 + 7  信用等级 + 2   查看全部评分

报纸
guokuidai 在职认证  发表于 2016-5-19 08:48:05
ljcwsh 发表于 2016-5-18 19:56
在用软件跑数据前,进行数据清洗是非常关键的一步。主要内容有(1)变换数据格式为你分析时所需要的标准格式 ...
可否请问具体异常值与极值的处理方法呢?是均值加减3倍标准差?还是用箱图确定呢?

地板
researcher007 发表于 2016-5-20 05:14:51
这个真的需要看情况定。

一般首先看这个变量的值的分布图,看是不是有什么异常值。异常值的处理有几种方式:
  • 如果很明显异常值是由于输入/测量错误,那么应该舍弃这个异常值:例如,在一个健康数据中,如果一个成年女人的体重是19斤,明显是输入错误,也许应该是91斤,或119斤,但我们不得而知,所以只好删掉这个值;
  • 如果在一个正态分布的变量中,一般高于3或低于-3的 z-score 都可以视为异常值,而被删除。尤其是当这个值的存在会显著的改变分析结果。
  • 另外还有一个方法是对变量进行处理,比如经济中常用的对收入的处理,因为测量误差很多,可以取log把异常值的影响减小。

总之,每个数据不一样,要先熟悉自己的数据,多尝试几种分析结果。


已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
guokuidai + 5 + 2 + 2 + 2 鼓励积极发帖讨论

总评分: 论坛币 + 5  学术水平 + 2  热心指数 + 2  信用等级 + 2   查看全部评分

7
guokuidai 在职认证  发表于 2016-5-20 11:13:18
researcher007 发表于 2016-5-20 05:14
这个真的需要看情况定。

一般首先看这个变量的值的分布图,看是不是有什么异常值。异常值的处理有几种方 ...
请问是否有关于实证研究前的数据清洗的教材呢?想系统性的学习下!

8
叶弥甘露 发表于 2016-5-20 15:15:18
清理数据用R也不错呢
已有 1 人评分论坛币 收起 理由
guokuidai + 3 精彩帖子

总评分: 论坛币 + 3   查看全部评分

9
guokuidai 在职认证  发表于 2016-5-20 17:17:03
叶弥甘露 发表于 2016-5-20 15:15
清理数据用R也不错呢
能否具体说说呢?

10
peter.chou 发表于 2016-5-22 12:28:32
这是需要金融软件分析吗?  我不是学计算机的 还有机会吗?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-4 07:21