楼主: dillonhao
5253 27

[讨论交流] 和我一起学量化 [推广有奖]

11
dillonhao 发表于 2014-8-23 21:33:28
知识2012 发表于 2014-8-21 10:45
支持,持续关注,共同学习。
请问用R吗?为什么呢。谢谢。
目前不准备用R,主要是因为不懂R。

12
dillonhao 发表于 2014-8-23 21:34:10
weitingkoala 发表于 2014-8-21 13:02
我也我还sas,作为版主,会强烈支持你。留个qq吧,交个朋友。
谢谢,181078519,交个朋友。

13
dillonhao 发表于 2014-8-23 22:43:16
这一次更新说说数据的事情。数据的重要性再怎么强调也不过分。数据的准确性,粒度,纬度和干净与否很大程度决定后期建模的结果。数据挖掘领域有个说法叫“garbage in, garbage out”。一定要非常重视数据质量。我这两天基本上在寻找合适的数据。原本觉得数据应该比较好弄,但是发现找到的大部分数据都不是很满意。大部分是数据量不够,有些是维度不够,各种原因。淘宝上发现几个卖数据的网店,由于要分享给大家,不希望带来额外的成本。最后发现大智慧365操盘软件的数据相对比较全面一些,而且可以比较容易的截取。具体的做法就是打开某个股指的分时图,这里我用到的是日线,调整到你希望分析的时间区间,然后右键复制数据再粘贴到Excel里面就可以。最后通过SAS Base的import功能可以很容易的把数据导入成SAS数据集。附件是我导出的数据,包括上证指数和华侨城A到从设立起到今天的日线数据。其中华侨城的数据因为是除权了,所以最早的数据是负数。

如何获取数据就说这些,下次的内容包括简单的数据处理和用描述统计的方法来观察一下这两部分数据都有什么特点。


data.zip
下载链接: https://bbs.pinggu.org/a-1617586.html

636.83 KB

本附件包括:

  • hqc.sas7bdat
  • market_data.xls
  • sh.sas7bdat

14
gssdzc 在职认证  发表于 2014-8-23 23:15:16
非常感谢楼主的分享

15
zsuphoenix 发表于 2014-8-25 08:50:03
好好好好好

16
weitingkoala 发表于 2014-8-25 12:24:55
dillonhao 发表于 2014-8-23 22:43
这一次更新说说数据的事情。数据的重要性再怎么强调也不过分。数据的准确性,粒度,纬度和干净与否很大程度 ...
dillonhao,建议您另外写一个新帖子,大家才能看到哈

17
dillonhao 发表于 2014-8-25 21:41:21
weitingkoala 发表于 2014-8-25 12:24
dillonhao,建议您另外写一个新帖子,大家才能看到哈
谢谢提醒,因为我会定期更新。如果每次都起一个新的帖子的话不好整理。另外有个功能叫只看作者可以过滤掉其他回复。

18
weitingkoala 发表于 2014-8-25 22:00:09
dillonhao 发表于 2014-8-25 21:41
谢谢提醒,因为我会定期更新。如果每次都起一个新的帖子的话不好整理。另外有个功能叫只看作者可以过滤掉 ...
恩 您想得很周到。这样吧,你每次发一个帖子,我给您做个汇总贴。

19
dillonhao 发表于 2014-8-25 22:28:49
第三次更新。如果大家希望看到完整的内容,可以进入帖子后,点击只看作者,这样会忽略掉一些无关的回复。
本次更新会简单处理一下数据,并进行一些描述性分析。看看数据都有那些特征。本次分析会用到上次更新的上证指数和华侨城A的日线数据。
上证指数数据字段:
日期开盘最高最低收盘成交量成交额涨数跌数

华侨城A数据字段:
日期开盘最高最低收盘成交量成交额成交笔数

我希望从收益率入手,这个数据原来的数据里面没有,需要计算生成,比较简单,具体计算过程你可以在附件的SAS程序中找到。这个新生成的收益率字段名叫return。我学习FRM的时候知道,大部分的金融产品return一般是正态分布,接下来我们画一个histogram看看上证指数和华侨城A的return的分布究竟是不是正态分布。
上证指数histogram:
sh_index.png
图上fit了一条正态分布的曲线,可以发现上证综指的峰值大大高过正态分布的峰值,应该不完全符合正态分布。我们再画一个QQ图验证一下我们的观察。
qq.png QQ图曲线明显偏离对角线,基本上可以判断上证指数的return不完全符合正态分布。
接下来再看一下return变量的统计值。

[td]
N5794权重总和5794
均值0.00037113观测总和2.15034032
标准差0.01899815方差0.00036093
偏度0.81269355峰度13.9442306
未校平方和2.09166448校正平方和2.09086642
变异系数5118.97103标准误差均值0.00024959


不考虑成交量的情况下,均值大于零,但是小的可怜。按照一年220个交易日来算,年回报也只有7%。这还比不过通货膨胀率,A股看来确实不挣钱。以上是上证综指的一些基本情况。你也可以在附件的SAS程序中找到华侨城的数据。

在风险管理中,我们有时候会将某个股票或者资产组合和大盘进行相关性比较,尤其是国内现在没有个股的期货,只有股指期货。如果我们能够得到股票或者资产组合与大盘之间的相关性,我们就能够利用股指期货来对冲股票或者资产组合的风险。接下来我们看一下华侨城和上证综指之间的相关性是多少?
[td]
Pearson 相关系数, N = 4006
Prob > |r| under H0: Rho=0
stock_closeindex_close
stock_close
close
1.00000
0.69286
<.0001
index_close
close
0.69286
<.0001
1.00000


从相关矩阵我们可以发现,华侨城A和上证指数之间的相关性还是比较强,达到0.69。我理解这应该是大盘蓝筹股票,基本上随着大盘波动而变化。有了这个数据,我们就可以达到一个对冲比例,利用股指期货来对冲华侨城风险。今天就介绍这些。下次更新会用不同的角度分析这些数据,敬请期待。






Data analysis day1.zip

794 Bytes

本附件包括:

  • Data analysis day1.sas

20
dillonhao 发表于 2014-8-25 22:30:02
weitingkoala 发表于 2014-8-25 22:00
恩 您想得很周到。这样吧,你每次发一个帖子,我给您做个汇总贴。
谢谢。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群
GMT+8, 2025-12-30 20:46