金融高频数据包含了证券交易过程中更多的实时信息,能够更加准
确地捕捉到证券市场发生的每一个细小的变化过程,所以利用高频数据
研究股票价格比采用低频数据具有很多的优势。通过数据挖掘技术挖掘
这些股票数据之间的关联规则有利于投资者了解各种股票的走势及股
票之间的关系,从而做出正确的投资决策。本文主要通过关联规则的
Apriori 算法研究金融高频数据问题。首先介绍了股票的相关知识,金
融高频数据的特点及发展现状;关联规则挖掘的基本概念,并对典型
Apriori 算法进行了分析。其次,由于采用的是金融高频数据,数据量
庞大,我们对 Apriori 算法做了一些改进。把事务数据库转变成元素值
为 “+” 或 “-” 的表,在计算k −项集支持度时只需要对表中任意k 列向
量进行“与”运算,“与”运算之后将项集中不同时为 “+” 或 “-” 的
事务所对的元素记为 “0” 。对数据做这样的处理可以使其在扫描数据
库计算支持度的过程中,减少运算量并且节省运算时间。最后,将改进
的 Apriori 算法应用到实际的金融高频数据中,采用的是证券市场上几
支具有代表性的股票数据,其频率包括五分钟、十五分钟、三十分钟、
六十分钟和每日等。通过发现频繁项集,最终生成这几支股票之间的关
联规则。数值试验结果表明,随着数据频度的降低,关联规则也有所变
化,三支股票CGH 生成的规则 G ,H ⇒ C逐渐减弱,DEF 这三支股票
形成的关联规则趋势逐渐增强。这是因为数据频度越低,丢失的信息越
多。当我们对数据进行挖掘时,高频数据要比频率低些的数据挖掘的效
果更明显,它可以更清楚地挖掘出几支股票同涨同跌的相似性。
关键词:关联规则、Apriori 算法、高频数据、股票I


雷达卡




[victory][victory][victory][victory]
京公网安备 11010802022788号







