各路大神,情况是这样的,有两个变量,id 和 date。现在首先要将数据按id分组,然后计算每组从最早一天到最晚一天的总天数(包括没有在date中出现的日期),记为m。接着计算date中有多少不同的日期,记为n。如果n<0.5m的话,则将整组观测删除。请问这个代码该如何写呢?
论文需要,还请各位大神帮忙,非常感激!:)
数据举例:
id date
1 20030520
1 20030521
1 20030523
1 20030523
1 20030525
1 20030525
2 20030520
2 20030520
2 20030525
2 20030525
1组中,m=6,n=4,应保留;
2组中,m=6,n=2,应删除。
谢谢各位啦!