valarmorgulis 发表于 2015-9-6 10:16
你这也太笼统了,既没有你想实现的目标,也没有你探索的过程,连数据集的结构也没有,让别人如何下手呢?
Final Exam Data.xlsx
(280.99 KB)
> setwd("C:/data")
> mydata<-read.table("Final Exam Data.csv",header = TRUE,sep = ",",stringsAsFactors = FALSE)
> mydata$数量<-sub(",","",mydata$数量)
> mydata$金额<-sub(",","",mydata$金额)
> mydata$成本<-sub(",","",mydata$成本)
> mydata$数量<-as.numeric(mydata$数量)
> mydata$金额<-as.numeric(mydata$金额)
> mydata$成本<-as.numeric(mydata$成本)
> mydata$销售额<-mydata$数量*mydata$金额
> mydata$利润<-mydata$销售额-mydata$成本
> mydata$销售月份<-factor(mydata$销售月份,levels=c("1月","2月","3月","4月","5月","6月","7月","8月","9月","10月","11月","12月"))
> head(mydata)
客户代码 销售月份 销售部门 销售人员 发票号 工单号 ERPCO号 产品名称
1 C000002 5月 三科 张明 H00013085 C017118-001 A04-288 睡袋
2 C000002 5月 三科 张明 H00013085 C017125-001 A04-293 睡袋
3 C000002 4月 三科 刘辉 H00013032 C017142-001 A04-306 睡袋
4 C000002 4月 三科 刘辉 H00013032 C017130-001 A04-297 睡袋
5 C000002 4月 三科 刘辉 H00013032 C017137-001 A04-301 睡袋
6 C000002 4月 三科 刘辉 H00013032 C017139-001 A04-303 睡袋
款式号 数量 金额 成本 销售额 利润
1 00593008RC 2 2203 1123 4406 3283
2 00593608RC 2 2159 1436 4318 2882
3 00584308XC 3 1240 666 3720 3054
4 00595108RC 3 2070 942 6210 5268
5 00596008RC 3 1285 583 3855 3272
6 00596208RC 3 1042 445 3126 2681
> library(ggplot2)
> qplot(销售月份,data=mydata[order(mydata$销售月份),],geom="bar",fill=销售月份,weight=销售额/1000000)+scale_y_continuous("销售额")
> head(mydata[order(mydata$销售月份),])
客户代码 销售月份 销售部门 销售人员 发票号 工单号 ERPCO号 产品名称
40 C000002 1月 三科 刘辉 H00012774 A12-084 C014673-002 睡袋
49 C000002 1月 三科 刘辉 H00012769 A12-086 C014673-004 睡袋
50 C000002 1月 三科 刘辉 H00012769 A12-090 C014673-008 睡袋
68 C000002 1月 三科 刘辉 H00012769 A12-088 C014673-006 睡袋
69 C000002 1月 三科 刘辉 H00012769 A12-089 C014673-007 睡袋
70 C000002 1月 三科 刘辉 H00012774 A12-085 C014673-003 睡袋
款式号 数量 金额 成本 销售额 利润
40 00583807LR 12 12125 11642 145500 133858
49 00583207LR 16 19270 18983 308320 289337
50 00583107LL 16 20015 20257 320240 299983
68 00583707LL 20 21016 22294 420320 398026
69 00583107RL 20 23710 24318 474200 449882
70 00583207RR 20 22921 22707 458420 435713
> qplot(销售月份,data=mydata[mydata$产品名称=="无纺衬"],geom="bar",fill=销售月份,weight=数量)+scale_y_continuous("数量")
Error in `[.data.frame`(mydata, mydata$产品名称 == "无纺衬") :
undefined columns selected