楼主: francistic
397 3

[数据管理求助] 如何查看有多少数据不是2009-2022年 [推广有奖]

  • 0关注
  • 0粉丝

高中生

80%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
81 小时
注册时间
2023-7-23
最后登录
2024-6-6

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据时间跨度是2009-2022年,但是目前有部分企业数据并没有拥有2009-2022年全部年份的数据
如图 832ee6340973c18e010e62903261405.png
想要查看有哪些企业缺失了2009-2022年的数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:企业数据 分企业

沙发
tgauss 发表于 2023-7-23 13:56:59 |只看作者 |坛友微信交流群
tab id year

使用道具

藤椅
nieqiang110 学生认证  发表于 2023-7-25 15:39:07 |只看作者 |坛友微信交流群
你的问题估计是要搞平衡面板数据。基本思路是:(1)先按企业识别变量分组;(2)分别计算各组行数、年份最小值、年份最大值;(3)筛选数据,条件包括:行数等于14、年份最小值为2009、年份最大值为2022。结果就可以筛选出平衡面板数据,对应的,其他数据就是你说的情况。
用R语言做,代码为:
data%>%
group_by(id)%>%
summarize(N=n(),year_min=min(year),year_max=max(year))%>%
filter(N==14&year_min==2009&year_max==2022)%>%
ungroup()%>%
pull(id)

使用道具

板凳
Abby小石榴er 发表于 2023-8-18 16:09:33 |只看作者 |坛友微信交流群
bysort id:gen n=_N  //得到每个id有多少年的数据
browse if n<13  //查看有哪些企业缺失了2009-2022年的数据

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 11:29