签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

经管百科

人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › R语言论坛 › 求助使用aggregate()分类汇总后仍出现重复变量

楼主: selina_wgh

2054 7

[问答] 求助使用aggregate()分类汇总后仍出现重复变量 [推广有奖]

0关注
0粉丝

大专生

25%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 1323 个
通用积分: 1.0000
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 3021 点
帖子: 22
精华: 0
在线时间: 72 小时
注册时间: 2007-10-26
最后登录: 2022-11-10

楼主

selina_wgh 发表于 2019-10-10 06:39:37 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

大家好，正在处理一个数据表，但一个看似很简单的语句，总是实现不了，麻烦看看是怎么回事儿？原数据有9个变量
   hs_id    country  exp_or_imp pname                      year value hsid4  factor  realvalue
1 90022090 德国    进口北京协和医药科技开发总公司 2000  1800  9002 0.78096  1405.7280
2 90083090 日本    进口北京协和医药科技开发总公司 2000  6010  9008 0.78096  4693.5696
……

例如，我要按照国别汇总进口或出口最多的国家或地区
使用：
处理imp只包含进口的行后，

pro21imp<-aggregate(imp[,9],list(imp$country),sum) ##进口按照国别

pro21imp<- pro21imp[order(-pro21imp$x),]

然而，发现处理后的行中，多次出现重复的国家，例如

> pro21imp[1:20,]

Group.1 x

217 韩国 222773619920

293 日本 164312172168

366 中国 94436744319

266 美国 92276835166

322 台澎金马关税区 89646559678

182 德国 66959402717

324 台湾省 57619616797

323 台湾 52085918730

367 中华人民共和国 28442808635

103 台湾省 19400378233

48 韩国 15449592879

86 日本 12191256230

357 英国 11538746328

132 中华人民共和国 10472372236

192 法国 10237974280

344 新加坡 9909631447

325 泰国 9765276985

259 马来西亚 9079832758

295 瑞士 7889710776

354 意大利 6723476801

可以看到日本，韩国等均出现了多次

请问我的处理哪里出现了问题？应该如何实现呢？

谢谢大家，敬请指教：）

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：aggregate

test.xlsx
下载链接: https://bbs.pinggu.org/a-2948645.html

96.51 KB

相关帖子

回复

沙发

selina_wgh 发表于 2019-10-10 10:23:23

求助。。。

回复

藤椅

selina_wgh 发表于 2019-10-10 19:39:15

啊。。。求助求助。。。

回复

板凳

在职认证

学生认证

发表于 2019-10-11 00:04:54

你放不方便给出部分数据，这样可以测试一下，因为你这样的描述，盲猜可能是中文的编码问题，具体也不敢说。

回复

报纸

selina_wgh 发表于 2019-11-26 16:35:47

owenqi 发表于 2019-10-11 00:04
你放不方便给出部分数据，这样可以测试一下，因为你这样的描述，盲猜可能是中文的编码问题，具体也不敢说。

谢谢您的回复，问题过期了，已经上交了，的确是中文编码的问题，但并没有解决。请问您知道中文编码这样的问题应该如何解决是好？谢谢了

回复

地板

在职认证

学生认证

发表于 2019-11-26 23:29:31

selina_wgh 发表于 2019-11-26 16:35
谢谢您的回复，问题过期了，已经上交了，的确是中文编码的问题，但并没有解决。请问您知道中文编码这样的 ...

这个要具体问题看，通常情况下，你读取数据的时候要选择编码，比如

df <- read.csv("mydata.csv", encoding="UTF-8")

复制代码

已有 1 人评分	论坛币	收起理由
cheetahfly	+ 10	热心帮助其他会员

总评分: 论坛币 + 10 查看全部评分

回复

7楼

selina_wgh 发表于 2020-9-6 18:28:09

owenqi 发表于 2019-11-26 23:29
这个要具体问题看，通常情况下，你读取数据的时候要选择编码，比如

谢谢，但我读取的时候编码了

回复

8楼

tiesuoqiao 发表于 2020-9-6 22:01:57

你难道不在Excel里看看数据吗？
"韩国” “ 韩国” 当然不是同样的数值
更不用说“中华人民共和国” “中国”了

先trim掉前后空格再说

回复

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明