人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › 经管代码库 › matlab个人学习笔记：数据清理

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: Bonnsecret

4052 1

[MATLAB] matlab个人学习笔记：数据清理 [推广有奖]

2关注
16粉丝

讲师

35%

还不是VIP/贵宾

威望: 0 级
论坛币: 5090 个
通用积分: 74.4937
学术水平: 72 点
热心指数: 91 点
信用等级: 54 点
经验: 9636 点
帖子: 282
精华: 0
在线时间: 512 小时
注册时间: 2014-5-28
最后登录: 2024-4-15

楼主

Bonnsecret 发表于 2015-3-15 22:39:24 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

所用的书是Matlab data analysis。学习的结果跟大家分享一下。其中所用的数据都可以在matlab中直接加载。

分析数据的第一部是数据清理。首先可以将数据放在图上，看数据是否存在某些特征会使影响分析的结果。比如通过观察可以确定是否存在缺失值、异常值、时间趋势，以及数据是否平稳。如果存在这些问题，就要通过相应的方法对数据进行修正。处理完之后的数据才可以正式的进入分析。

处理缺失值需要根据数据的具体情况来定：是直接忽略缺失值，还是用插值法（interpolation）来弥补缺失值。Matlab里边缺失值使用NaN来表示的。如果数据里边包含NaN，matlab不会发出警告，而是仍然按照你的编程进行运算。最后导致结果异常。以前计算逆矩阵的时候就遇到过这种情况，因为数据中存在NaN，导致矩阵不可逆。有时候直接从excel里边导入的数据，缺失值是用0来表示的。这个时候在matlab中不再显示NaN。但是在运算过程中有可能产生NaN，导致最后结果异常。

对于缺失值NaN，如果要直接忽略的话，一般是用方程isnan来识别NaN，然后再进行替代。假设矩阵x中包含NaN，有下面几种方法可以去除NaN：

>>i=find(~isana(x));
>>x=x(i) %第一个命令首先识别那些不等于NaN的矩阵中要素的编号，然后第二个命令就要求只保留这些编号的要素。
>>x=x(~isnan(x)); %可以直接去除NaN。

复制代码

或者：

>>x(isnan(x))=[];

如果要去除包含NaN的行：

>>x(any(isnan(x),2),:)=[];

如要用插值法替代NaN，可以用interp1这个方程，就是一维的插值方程。举个例子：

对于矩阵a=[8 1 6; 3 NaN 7; 4 9 2]。

>>b=a(:,2);

>>times=1:length(b);

>>mask=~isnan(b);

>>c=b;

>>c(~mask)=interp1(times(mask),a(mask),times(~mask));

这是利用matlab的内置方程vq=interp1(x,v,xq)。其中x表示的插值法取值的点，v包含了相应的点的值，xq表示需要插值的点。因此，在使用这个方程之前，要对上述三个方面进行定义。该方程默认的是线性插值法，其他的选项可以参见matlab documentation center。

处理异常值也要求对数据的生成过程有清楚的了解，为什么会有异常值产生。因为异常值也包含了重要的样本信息，因此是否要去掉异常值要慎重考虑。通常定义异常值是与样本标准差的差值大于3个标准差，也就是3 sigma准则。虽然去掉异常值对样本的均值影响很小，但是对标准差的影响很大。去掉异常值，有可能会引起标准差很大的变化，有可能产生更多的异常值。

时间序列的数据在分析之前要进行滤波。Matlab内置的一维滤波方程为：

y=filter(b,a,x)

被滤波的数据为x，滤波子用b和a来描述。滤波使用的是差分方程。举个简单的例子，移动平均滤波。假设移动平均的窗口宽度为4，则

b=[1/4 1/4 1/4 1/4];

a=1;

加载数据

>>loadcount.dat

>>x=count(:,1); %被滤波的数据

>>y=filter(b,a,x);

画图，查看一下滤波的结果：

>>t=1:length(x);

>>plot(t,x,’-.’,t,y,’-‘),gridon;