楼主: 科研吗喽
1197 5

[数据管理求助] stata/python数据处理求助 [推广有奖]

  • 0关注
  • 0粉丝

高中生

65%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.0436
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
170 点
帖子
16
精华
0
在线时间
54 小时
注册时间
2024-1-23
最后登录
2025-2-23

楼主
科研吗喽 发表于 2024-8-28 11:15:57 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
请教各位大佬,处理数据的时候卡在这一步了。我的数据中有以下几个变量:var1 var2 var3 var4

var1        var2       var3     var4
2024       M1          A        abc
2024       M1          A        def
2024       M1          B        opq
2024       M2          A        rst

最后我是希望得到 当
var1、var2、var3相同时,var4合并到同一行,也就是类似以下的结果

var1        var2       var3     var41        var42
2024        M1        A          abc           def
2024        M1        B          opq  
2024        M2        A          rst


当然,实际上的数据量非常非常大,有将近五百万条的观测,并且合并后会形成大量的var41,var42,var43....(会超过stata能容纳的列数),由于数据量太大,用stata的reshape功能无法实现我想要的效果,所以我也试过让最后呈现的效果是这样,也就是不新增列数,但是还是没法达成我想要的结果。
var1        var2       var3     var4
2024        M1        A          abc+def
2024        M1        B          opq  
2024        M2        A          rst

python也试过了,还是无法处理,想问下有人知道这种情况应该怎么办吗



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python 数据处理求助 Stata tata 数据处理

沙发
xujianxiang 学生认证  发表于 2024-8-28 17:02:57
你发社科之家网站试试呢 那里经验贴蛮多的

藤椅
逍遥梦蝶 发表于 2024-8-30 01:04:49
用reshape的思路是对的。如果数据量过大,可以分年度循环处理,然后将年度数据append到一起。

板凳
科研吗喽 发表于 2024-8-30 20:33:19
逍遥梦蝶 发表于 2024-8-30 01:04
用reshape的思路是对的。如果数据量过大,可以分年度循环处理,然后将年度数据append到一起。
这就是一年的(哭)

报纸
科研吗喽 发表于 2024-8-30 20:34:37
xujianxiang 发表于 2024-8-28 17:02
你发社科之家网站试试呢 那里经验贴蛮多的
好的我去试试,感谢~

地板
逍遥梦蝶 发表于 2024-8-31 16:00:05
科研吗喽 发表于 2024-8-30 20:33
这就是一年的(哭)
那就按var1 var2分组处理。思路是一样的。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-20 01:41