- dataset <- read.csv(choose.files(), header = T)
我第一步选出share code为10和11的公司,用了下面的命令:
- subdata1 <- subset(dataset, dataset$SHRCD == c(10,11))
然后我选择年份范围,命令如下(如果有知道像这种年份怎么根据头四位年份筛选的,望指教)
- subdata2 <- subset(subdata1, subdata1¥DATE>20081231 & subdata1$DATE<20140101)
接下来我有筛选了一下交易所代码为1的公司,并且去掉了SIC code缺失的数据:
- subdata3 <- subset(subdata2, subdata2$EXCHCD == 1)
- subdata4 <- subset(subdata3, subdata3$SICCD!="NA")
最后我想去掉utility和finance公司,即SIC开头为40-49,52-59的公司:
- subdata5 <- subset(subdata4, subdata4$SICCD!= c(4000:4999,5200:5900))
然后这个命令就出错了
- Warning message:
- In subdata4$SICCD != c(4000:4999, 5200:5900) :
- longer object length is not a multiple of shorter object length
我又试了一下subdata2那种形式的命令,也是这个错误,希望大家给我指导指导。
subdata5 <- subdata4[(subdata4$SICCD<4000)&(subdata4$SICCD>4999),]这种形式出来的是0 observation。。。
另外这种通过特定部分的字符筛选数据有没有什么简便的方法?例如20000101-20151231的日期里,只选择第五位是1第六位是0,即所有的10月,留下20001001,20001002...


雷达卡





京公网安备 11010802022788号







