人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › 关于使用高频数据

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: ahwang

7139 5

[学科前沿] 关于使用高频数据 [推广有奖]

0关注
0粉丝

小学生

14%

还不是VIP/贵宾

威望: 0 级
论坛币: 442 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 46 点
帖子: 3
精华: 0
在线时间: 0 小时
注册时间: 2005-4-16
最后登录: 2011-10-5

楼主

ahwang 发表于 2006-1-18 00:22:00 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

在使用时需要注意些什么？
需要做那些预处理吗？
谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：高频数据预处理高频

回帖推荐

modestyoung 发表于2楼查看完整内容

本帖被以下文库推荐

· 计量.统计精彩问答|主题: 12506, 订阅: 52

使用道具举报

沙发

modestyoung 发表于 2010-5-9 16:33:21 |只看作者 |坛友微信交流群

　 1数据问题
　　(1)不准确的时间(innaccurate times) 。对每日数据来说 ,数据库中对每
个观测值(如每日收盘价格)所记录的日历时间通常是准确的。相反 ,日内交
易的记录时间却往往是不准确的。比如在一个采用公开喊价交易机制的金融
市场中 ,交易数据要等到交易者的交易卡片进入计算机系统以后才做时间标
记 ,这当中则可能会有几个小时的时滞。对金融高频数据来说 ,交易之间的间
隔比较短 ,这种不准确性往往会造成交易或报价被记录到一个错误的间隔中 ,
或者交易或者报价的时间序列不正确等问题。
　　(2)不正确的交易量(inaccurate volumes) 。同样地 ,在采用公开喊价交易
机制的金融市场中由于单笔交易量较难观察到 ,在对其所建立的金融高频数
据中 ,往往采用对单笔交易估计而非精确的交易量 ,从而就意味着用这些数据
所作的研究是不可靠的。
　　(3)失时效的价格( stale prices) 。实证研究通常需要现价时间序列 ,但除
非价格形成过程是连续的 ,否则就无法得到这样的时间序列 ,而需要使用失时
效的价格作为替代。所谓失时效的价格 ,指的是一段时间之前发生的交易价
格。比如说 ,要得到一个按固定间隔(如每 15 分钟)观察的价格序列 ,因为在
这样短的一段时间内也许不会有交易或报价出现 ,所以就只能用最近的价格
作为替代。可是如果将这样的数据视为固定间隔取值数据的话 ,就会引起各
种各样的偏差。比如 ,如果把不等间隔的数据视为等间隔的数据的话 ,就会高
估后者的方差 ,并且收益的时间序列会表现出自相关性。
　　(4)缺省值(missing value) 。用来计算收益的价格必须来自单独的交易或
报价 ,在这里如何处理缺省值问题非常重要 ,因为它将影响作为结果的时间序
列的统计特征。在每月或者每周数据中几乎不可能出现缺省值问题 ,而且对
大多数金融证券来说通常每天至少会有一个交易(或报价) ,所以每日数据一
般也不会遇到这个问题。然而 ,在金融高频数据中(如时间间隔缩短为 1 分
钟)缺省值却会时常发生 ,并且成为影响相关研究的一个实质性的问题。

2 1日内数据带来的市场微观结构的影响
　(1)离散性(discreteness) 。价格的离散性在取值范围很大的低频样本中
不是个重要问题 ,因为它可以用一个连续过程作为很好的近似。但是对日内
价格运动来说 ,离散性却是个严重问题 ,因为它可能一共只有五、六个观测值。
缺少连续性暗示了按照连续间隔状态所建立的模型不能很好地代表数据 ,并
且会导致一系列的统计问题 ,如有限依赖变量、拒绝随机性检验(因为它可能
会带来微弱的负自相关) 、增大估计的方差、带来价格变动分布中的峰度问题
等等。
　　(2)季节性(seasonalities) 。有关的实证研究已表明 ,在很多金融市场中都
存在交易量、收益波动性、询报价差额的 U 型趋势和收益中的日内模式及自
相关关系。由于这些现象会导致周末效应的消失、高估信息对收益波动性的
影响以及会隐藏高频数据中的 ARCH 效应等 ,所以 ,对它们进行控制是相当
重要的。
　　(3)询报价反弹(bid ν ask bounce) 。在低频数据中询报价差额对收益计
算的影响很小。可是研究表明 ,在高频数据中 ,它却会造成收益中的负自相关
关系。询报价差额是一个交易成本 ,它不仅会给基于套利的定价关系带来噪
音并且造成算术收益和收益方差的高估;而且还会影响价格时间序列的动态
性、价格逆转与延续性检验的效力及增加收益的波动性。

　　 31统计与计量问题
　(1)缺少正态性(lack of normality) 。根据中心极限定理所推出的“金融市
场的收益数据服从正态分布”的结论是有争议的。对于对数形式的收益来说 ,
每个月的对数收益值等于这个月中每分钟收益值的总和 ,因而每月收益数据
趋于正态分布。但是当交易间隔变得比较短时 ,正态分布的论点就失去了效
力。有实证研究表明 ,随着交易间隔越来越短 ,收益的分布也会越来越偏离正
态。非正态性之所以重要 ,不仅因为它会令很多标准统计检验失效 ,而且它也
是建立一些模型如 Black ν Scholes 期权定价模型和进行风险价值分析的重
要基础。
　　(2)ARCH效应。众所周知 ,在每日或更低频的收益数据中存在 ARCH
效应。关于波动性的建模和预测对金融工具的定价是很重要的。如对期权来
说 ,Engle 和 Bollerslev 的 ARCH 模型就是对波动一致性进行估计的成熟方
法。但是研究发现 ,金融高频数据中的波动一致性远远低于低频数据。如
Andersen和Bollerslev用 1992～1993 年外汇现货交易中 US＄ν DM 的收益
数据所作的研究表明 ,当交易间隔缩短为 90 分钟时 ,用 GARCH(1 ,1)模型所
估计的波动一致性就消失了。