我有4个变量,数据结构如下:
customer product date category
1 001 12Feb2010 A
1 002 13Feb2010 B
1 003 19Feb2010 B
1 004 01Mar2010 A
2 005 12Mar2010 B
2 006 15Apr2010 A
2 007 18Apr2010 B
....
说明:
customer代表每一个客户id。
product代表每一个客户购买的产品,此id在数据集中是unique的,互不重复。
date代表此产品的买入时间。
category是此产品的类别,只有A和B两个值。
现要求:生成一个变量datediff,对每一个客户下的每一个产品,计算其距离上次购入A类产品的时间差(以天算)。如果是第一条记录或者之前没有购入A类产品,则为空值。
举例来说,在刚刚这个数据集中,最后应该如下:
customer product date category datediff
1 001 12Feb2010 A . (第一条记录)
1 002 13Feb2010 B 1 (此条date=13Feb2010,上次买入A类产品是第一条记录date=12Feb2010,故为1)
1 003 19Feb2010 B 7 (此条date=19Feb2010,上次买入A类产品是第一条记录date=12Feb2010,故为7)
1 004 21Feb2010 A 9 (此条date=21Feb2010,上次买入A类产品是第一条记录date=12Feb2010,故为9)
2 005 12Apr2010 B . (第一条记录且之前无购买A纪录)
2 006 15Apr2010 A . (之前无购买A纪录)
2 007 18Apr2010 B 3 (此条date=18Apr2010,上次买入A类产品是第一条记录date=15Apr2010,故为3)
....
依次类推。
还请高手指教。。。。