现有以数据集(sample)如下,目标是把数据集中每隔五分钟有个数据,如果数据集中没有数据,code 和px就用各自的上一个数据表示,比如说‘2014/4/26 3:00 和2014/4/26 3:15’中间缺少'2014/4/26 3:05','2014/4/26 3:10'两个数据,我们插入两行UX 2014/4/26 3:05 17.88
UX 2014/4/26 3:10 17.88
依次类推。
我的方法是先生成从初始时间到最后时间每隔五分钟的一个新的数据集,再by datetime合并(meger),最后生成新全时间序列的但是code 和px有缺失的,再填充缺失值。但是如果数据时间比较长而且code的个数比较多的时候计算就慢了,有没有哪位有更好的算法的?
code datetime px
UX 2014/4/26 3:00 17.88
UX 2014/4/26 3:15 17.88
UX 2014/4/26 3:40 17.87
UX 2014/4/26 3:45 17.83
UX 2014/4/26 3:50 17.83
UX 2014/4/26 3:55 17.88
UX 2014/4/26 4:00 17.88
UX 2014/4/26 4:05 17.88
UX 2014/4/26 4:10 17.85
UX 2014/4/28 15:00 17.8
UX 2014/4/28 15:05 17.75
UX 2014/4/28 15:50 17.8
UX 2014/4/28 16:45 17.75
UX 2014/4/28 17:20 17.71
UX 2014/4/28 17:30 17.7
UX 2014/4/28 17:40 17.7
UX 2014/4/28 18:15 17.7
UX 2014/4/28 18:40 17.73