楼主: selina_wgh
1995 7

[问答] 求助使用aggregate()分类汇总后仍出现重复变量 [推广有奖]

  • 0关注
  • 0粉丝

大专生

25%

还不是VIP/贵宾

-

威望
0
论坛币
1323 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
3021 点
帖子
22
精华
0
在线时间
72 小时
注册时间
2007-10-26
最后登录
2022-11-10

楼主
selina_wgh 发表于 2019-10-10 06:39:37 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好,正在处理一个数据表,但一个看似很简单的语句,总是实现不了,麻烦看看是怎么回事儿?原数据有9个变量
     hs_id       country  exp_or_imp   pname                        year value hsid4  factor  realvalue
1 90022090    德国       进口 北京协和医药科技开发总公司 2000  1800  9002 0.78096  1405.7280
2 90083090    日本       进口 北京协和医药科技开发总公司 2000  6010  9008 0.78096  4693.5696
……

例如,我要按照国别汇总进口或出口最多的国家或地区
使用:
处理imp只包含进口的行后,

pro21imp<-aggregate(imp[,9],list(imp$country),sum) ##进口按照国别

pro21imp<- pro21imp[order(-pro21imp$x),]

然而,发现处理后的行中,多次出现重复的国家,例如

> pro21imp[1:20,]

              Group.1            x

217              韩国 222773619920

293              日本 164312172168

366              中国  94436744319

266              美国  92276835166

322    台澎金马关税区  89646559678

182              德国  66959402717

324            台湾省  57619616797

323              台湾  52085918730

367    中华人民共和国  28442808635

103            台湾省  19400378233

48               韩国  15449592879

86               日本  12191256230

357              英国  11538746328

132    中华人民共和国  10472372236

192              法国  10237974280

344            新加坡   9909631447

325              泰国   9765276985

259          马来西亚   9079832758

295              瑞士   7889710776

354            意大利   6723476801



可以看到日本,韩国等均出现了多次

请问我的处理哪里出现了问题?应该如何实现呢?

谢谢大家,敬请指教:)











二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:aggregate

沙发
selina_wgh 发表于 2019-10-10 10:23:23
求助。。。

藤椅
selina_wgh 发表于 2019-10-10 19:39:15
啊。。。求助求助。。。

板凳
owenqi 在职认证  学生认证  发表于 2019-10-11 00:04:54
你放不方便给出部分数据,这样可以测试一下,因为你这样的描述,盲猜可能是中文的编码问题,具体也不敢说。

报纸
selina_wgh 发表于 2019-11-26 16:35:47
owenqi 发表于 2019-10-11 00:04
你放不方便给出部分数据,这样可以测试一下,因为你这样的描述,盲猜可能是中文的编码问题,具体也不敢说。
谢谢您的回复,问题过期了,已经上交了,的确是中文编码的问题,但并没有解决。请问您知道中文编码这样的问题应该如何解决是好?谢谢了

地板
owenqi 在职认证  学生认证  发表于 2019-11-26 23:29:31
selina_wgh 发表于 2019-11-26 16:35
谢谢您的回复,问题过期了,已经上交了,的确是中文编码的问题,但并没有解决。请问您知道中文编码这样的 ...
这个要具体问题看,通常情况下,你读取数据的时候要选择编码,比如
  1. df <- read.csv("mydata.csv", encoding="UTF-8")
复制代码
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

7
selina_wgh 发表于 2020-9-6 18:28:09
owenqi 发表于 2019-11-26 23:29
这个要具体问题看,通常情况下,你读取数据的时候要选择编码,比如
谢谢,但我读取的时候编码了

8
tiesuoqiao 发表于 2020-9-6 22:01:57
你难道不在Excel里看看数据吗?
"韩国” “   韩国” 当然不是同样的数值
更不用说“中华人民共和国” “中国”了

先trim掉前后空格再说


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-19 12:12