楼主: kk22boy
1840 6

[程序分享] 来玩一玩全球500强排行榜数据 [推广有奖]

  • 8关注
  • 95粉丝

一叶知秋

已卖:9095份资源

学科带头人

51%

还不是VIP/贵宾

-

TA的文库  其他...

计量经济与统计

SSCI、权威 论文写作及投稿经验

威望
1
论坛币
57240 个
通用积分
130.1721
学术水平
437 点
热心指数
492 点
信用等级
393 点
经验
68023 点
帖子
1586
精华
0
在线时间
2192 小时
注册时间
2005-3-10
最后登录
2025-5-25

初级热心勋章 初级信用勋章

楼主
kk22boy 发表于 2013-3-6 16:22:01 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
By 写长城的诗


金融时报在7月20日公布了全球500强排行榜。根据这个数据尝试回答下面的一些问题。

1. 哪个行业的上榜公司最多?


看得出来,银行、石油、制药是前三强。


2. 哪个国家的上榜公司最多?


美国公司占据了大部分,日本和英国则位居其后。

3. 哪个行业最赚钱?


根据各行业公司的净利润中位数进行排序,地产、采矿、石油这三个行业公司利润不错。

4. 公司的排名变化如何?



根据2011年和2012年的排位之差,计算各公司的排名变化,对于2011年未上榜公司假设为501名。大致上正态分布,在退步前十名中有知名的Nokia、Sony、Philips。

5. 哪个行业的排名进步最大?


取其行业公司排名变化的中位数,旅游、地产、烟草公司排名有进步。

5. 中国的上榜公司排名总体变化如何?




和上面的一样,取各国公司排名变化的中位数,看得出中国上榜公司的排名略有下降。东南亚新兴市场的公司有很大进步。

需要说明的是FT只提供了排名的PDF文档,如果各位数据爱好者要折腾的话需要先将其转为Excel格式,或者下载我已经整理好的CSV文档

R代码如下:
mydata <- read.csv('d:\\ft500.csv',T,stringsAsFactors = F)
data  <- transform(mydata,
          Country = factor(Country),
          Sector = factor(Sector),
          value = as.numeric(gsub(',','',value)),
          netincome = as.numeric(gsub(',','',netincome)),
          employees = as.numeric(gsub(',','',employees)),
          totalasset = as.numeric(gsub(',','',totalasset)),
          turnover = as.numeric(gsub(',','',turnover)),
           price = as.numeric(gsub(',','',price)))
library(ggplot2)
# 哪个行业的上榜公司最多
data$Sector <- with(data,reorder(Sector,Sector,function(x) length(x)))
p <- ggplot(data=data)
p + geom_bar(aes(x=Sector,y=..count..),fill='deepskyblue') + coord_flip()
# 哪个国家的上榜公司最多?
data$Country <- with(data,reorder(Country,Country,function(x) length(x)))
p + geom_bar(aes(x=Country,y=..count..),fill='deepskyblue') + coord_flip()

# 哪个行业最赚钱
isna <- is.na(data$employees) |is.na(data$netincome)
data2 <- data[!isna,]
data2$Sector <- with(data2,reorder(Sector,netincome,median))
p2 <- ggplot(data=data2,aes(x=Sector,y=netincome))
p2 + stat_summary(fun.y=median,geom='bar',fill='deepskyblue') + coord_flip()

# 排名变化情况
data$X2011[is.na(data$X2011)] <- 501
data$change <- with(data,X2011-X2012)
p + geom_histogram(aes(x=change,y=..density..),
                   fill='deepskyblue',color='white')
# 进步前十名
data[order(data$change,decreasing=T),][1:10,]







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:全球500强 500强 排行榜 Excel格式 Philips 公司 正态分布 comment 排行榜

已有 2 人评分经验 论坛币 学术水平 热心指数 收起 理由
qoiqpwqr + 40 + 1 + 1 奖励积极上传好的资料
ltx5151 + 20 + 20 鼓励积极发帖讨论

总评分: 经验 + 60  论坛币 + 20  学术水平 + 1  热心指数 + 1   查看全部评分

如果该贴对您有些许帮助,希望你能回复一下或者评一下热心指数!谢谢!

沙发
kk22boy 发表于 2013-3-6 16:22:23
ft500.zip (22.17 KB) 本附件包括:
  • ft500.csv

# 退步前十名
data[order(data$change,decreasing=F),][1:10,]

# 行业的进退
data$Sector <- with(data,reorder(Sector,change,median))
p3 <- ggplot(data=data,aes(x=Sector,y=change))
p3 + stat_summary(fun.y=median,geom='bar',fill='deepskyblue') + coord_flip()

# 国家的进退
data$Country <- with(data,reorder(Country,change,median))
p4 <- ggplot(data=data,aes(x=Country,y=change))
p4 + stat_summary(fun.y=median,geom='bar',fill='deepskyblue') + coord_flip()

# 各变量之间的相关性
library(corrgram)
data3 <- data[,c(6:13,15)]
corrgram(order = T, data3, lower.panel = panel.shade, upper.panel = panel.pie)
如果该贴对您有些许帮助,希望你能回复一下或者评一下热心指数!谢谢!

藤椅
hqs00000 在职认证  发表于 2013-4-24 15:00:19
哈哈  从上面的代码中学到了GSUB
失去的东西太多了!

板凳
goldyuaa 发表于 2013-4-24 17:09:00
高手啊,数据整理是重要的一环

报纸
mathstu 在职认证  发表于 2013-4-30 19:10:25
学习了  谢谢楼主!

地板
elenli 发表于 2013-12-31 23:20:09
wwwww学习贴
果然对于处理数据的人而言没有什么从数据中看不到w

7
nieqiang110 学生认证  发表于 2014-1-4 09:42:17
谢谢

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-26 03:22