请选择 进入手机版 | 继续访问电脑版
楼主: weifq_25
20740 21

[问答] 关于时间序列样本量大小的确定 [推广有奖]

darkworld 发表于 2012-5-14 17:09:05 |显示全部楼层 |坛友微信交流群
weifq_25 发表于 2012-5-14 17:03
每一天的数据都差不多,有早晚两个高峰,还是有一定规律的
你的数据中早晚好像是谷值吧。。。峰值貌似在中间哎。

如果都是这个模式的话,那你用5,6天的数据就可以做出以天的周期性的预测了吧。一般3个周期以上,几百个数据点就可以做的挺好的了。你这种288*n的数据应该可以做的出挺好的结果。

使用道具

weifq_25 发表于 2012-5-14 17:29:41 |显示全部楼层 |坛友微信交流群
darkworld 发表于 2012-5-14 17:09
你的数据中早晚好像是谷值吧。。。峰值貌似在中间哎。

如果都是这个模式的话,那你用5,6天的数据就可 ...
我说的早晚高峰是指早上上班的高峰和晚上下班的高峰,数据是从凌晨0点到晚上12点,所以画图出来的话,波峰是在中间。你说用288*n个数据做样本数据,预测一整天的数据?...因为实际情况是,每5分钟产生一个数据,我想实现的是:每产生一个新数据,进行一次15分钟后的流量预测,每次只预测一个数据...

使用道具

darkworld 发表于 2012-5-14 17:47:54 |显示全部楼层 |坛友微信交流群
weifq_25 发表于 2012-5-14 17:29
我说的早晚高峰是指早上上班的高峰和晚上下班的高峰,数据是从凌晨0点到晚上12点,所以画图出来的话,波峰 ...
sigh。。。你为什么要建立time series模型里?
无非是利用周期性和你预测点的前几个点的数据来预测你后来的数据啊。所以。。。就这样咯。

使用道具

weifq_25 发表于 2012-5-14 18:11:35 |显示全部楼层 |坛友微信交流群
darkworld 发表于 2012-5-14 17:47
sigh。。。你为什么要建立time series模型里?
无非是利用周期性和你预测点的前几个点的数据来预测你后来 ...
       额....写论文需要...直接用“天相似性”的话就只考虑了历史样本,没有考虑当天的交通状况,这种方法人家论文中早就提过了,由于没有考虑当天的交通状况,一旦当天出现交通事故的话,用这种方法进行预测就会产生很大的误差,因此这个方法已经被淘汰了。
       我想的是每到达一个数据就选取一定长度的样本序列,进行一次平稳性分析、建模、然后进行预测...而平稳性与样本序列长度有关,选得太长或太多都会导致序列失去平稳性,所以样本长度是关键,通过实际数据验证,我发现对于交通流量数据而言,当样本序列长度为20左右,基本上能够保证从第1个数据到第20个数据、第2个数据到第21个数据.....第279到第288个数据具有平稳性,但也有部分不平稳,目前想到的方法就是固定样本长度为20,新到达一个数据,就选取该数据及之前的19个数据进行平稳性分析,如果具有平稳性,就进行建模及预测,如果不具有平稳性,就改变样本长度,直到使得序列具有平稳性为止,再进行建模和预测,就是不知道有什么更好的方法来实时确定样本长度没?

使用道具

darkworld 发表于 2012-5-15 09:25:33 |显示全部楼层 |坛友微信交流群
weifq_25 发表于 2012-5-14 18:11
额....写论文需要...直接用“天相似性”的话就只考虑了历史样本,没有考虑当天的交通状况,这种 ...
这位小哥?小妞?大早上一上班看到你的这个回复我都不知道说什么了。。。您快毕业了吧,您觉得我说的关于建模的那些个东西真是你说的这个意思的话我就寒了。

你这边有些概念混淆了,什么叫“我想的是每到达一个数据就选取一定长度的样本序列,进行一次平稳性分析、建模、然后进行预测”哪本教科书说是这样进行建模的?你说的这个我就理解成是模型建好了,你开始套用真实数据进行运用好了。。。还有,我真的不理解什么叫固定样本长度为20?你是指p还是q你取到20?如果是,那这个在time series里面经验来说就太大了,一般p,q不超过5,偶尔会有大的,但20也太。。。夸张了吧。

使用道具

weifq_25 发表于 2012-5-15 10:32:32 |显示全部楼层 |坛友微信交流群
darkworld 发表于 2012-5-15 09:25
这位小哥?小妞?大早上一上班看到你的这个回复我都不知道说什么了。。。您快毕业了吧,您觉得我说的关于 ...
20120515563.jpg

           额....应该是我没表述清楚,我说的固定样本长度为20是这个意思:你看这个“例1”,题目中说“有N=100的时间序列....”,我说的20就相当于这里的N,它这里的N是确定的,而我要处理的是持续不断的动态数据,每隔5分钟产生一个数据,历史数据构成的序列很长,已经好多万个,不可能通过这上万个数据来进行建模和预测噻,所以需要确定一个样本的长度,亦即确定这里的N。
         我说的用固定样本长度为20的序列进行预测时这个意思:假设现在是凌晨3:00,要对3:15的流量进行预测,因为每5分钟产生一个数据,所以需要进行3步预测。我利用凌晨3:00之前的20个数据所构成的时间序列来对3:15的流量进行预测,亦即用3:00,2:55,2:50、、、1:25(刚好20个数据)这些时刻检测到的数据构成的序列进行预测,首先需要检验该序列的平稳性,如果平稳,就进行建模和预测;如果不平稳,就进行一次差分,再看是否平稳...。
      当3:05分时刻到达时,又会产生一个新的数据,这时需要对3:20的流量进行预测,所以重复上面的步骤。
      因为我固定的样本长度为20,所以存在这样的情况,有些时刻,比如说4:00,我利用4:00之前的20个数据对4:15分的流量进行预测时,首先需要进行平稳性分析,可能这20个数据构成的序列不具有平稳性,然后我进行一次差分,结果还是不平稳,二次差分后还是不平稳...那么这时就需要考虑改变样本的长度(增加或减少样本长度),假设我增加样本长度为24,即利用4:00,3:55,3:50、、、2:05(共24个数据)这24个数据进行预测,同样,先进行平稳性分析,可能这时这24个数据构成的序列就具有平稳性了,这时才能进行建模和预测;如果这24个数据构成的序列依然不具有平稳性,那么又改变序列长度....直到序列平稳为止。
      我的问题就是,如果遇到上面那种情况(序列一直不平稳)怎么办?

使用道具

darkworld 发表于 2012-5-15 10:44:51 |显示全部楼层 |坛友微信交流群
人家建p=1,q=1的模型都要用n=100,你用n=20做time series能平稳就出妖精了。

还有关于stable,你有尝试过做transform吗?你知道什么是ACF和PACF不?而且你难道不知道最基本的建模型的时候数据量越大越好吗?小哥哎。。。我基本确定你没明白time series到底在说什么,好好看看书吧。。。

使用道具

weifq_25 发表于 2012-5-15 11:10:44 |显示全部楼层 |坛友微信交流群
darkworld 发表于 2012-5-15 10:44
人家建p=1,q=1的模型都要用n=100,你用n=20做time series能平稳就出妖精了。

还有关于stable,你有尝试过 ...

n=20

n=20

n=144

n=144

n=288

n=288

上面是我分别用20个数据,144个数据和288个数据作的图,我知道建模时数据量越大约好,但是从上面几幅图可以看出,数据量越大越不平稳,我利用游程检验法进行平稳性验证,发现也是这样。不知道平稳性检验是否一般都是用游程检验法?你说的transform是指对原始序列进行转换使其变为平稳序列?我知道的平稳化方法就只有差分和取对数...ACF和PACF是指自相关函数和偏自相关函数吧?那两个函数不是在进行模型识别时才进行计算吗,哎,不好意思,小弟对时间序列研究得不够深入,还望高手指教!

使用道具

darkworld 发表于 2012-5-15 11:48:36 |显示全部楼层 |坛友微信交流群
weifq_25 发表于 2012-5-15 11:10
上面是我分别用20个数据,144个数据和288个数据作的图,我知道建模时数据量越大约好,但是从上面几幅图 ...
sigh,再多说几句吧,第一,你这个明显是周期性数据,你自己也说了,数据也看了,谷底在两头,中间是峰值,所以,肯定是一个以288为周期的图,所以你的样本取288*n, N>=3,我建议取5。

其次,stable是看所有288*n个数据的,绝不是一个周期都不到就能看出来的,因为你要看的是整个series是不是stable。你需要知道整体数据在剔出所有趋势后的那个error是不是stable,你一个周期不到连周期趋势都判断不出来你怎么能知道序列是不是stable?

你建出来的模型必然是一个周期为288的时间序列模型,根据PACF和ACF来判断p,q的取值,p,q尽量取在5以内。

你最后给出的预测结果是一个基于建立好的模型的预测,所有预测值根据已有值不停迭代得出,运用SAS等工具可以进一步给出95%的confidence interval。

使用道具

weifq_25 发表于 2012-5-15 16:02:24 |显示全部楼层 |坛友微信交流群
darkworld 发表于 2012-5-15 11:48
sigh,再多说几句吧,第一,你这个明显是周期性数据,你自己也说了,数据也看了,谷底在两头,中间是峰值, ...
嗯....最后再问下,就是在利用PACF和ACF进行p和q值确定时,计算自相关系数ρk和偏相关系数φkk时,k一般取多少,亦即需要算多少个自相关系数和偏相关系数后再进行模型判定

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 13:02