楼主: yuqilin135
4197 2

[数据管理求助] 如何对数据分组设置虚拟变量 [推广有奖]

  • 0关注
  • 0粉丝

高中生

32%

还不是VIP/贵宾

-

威望
0
论坛币
7 个
通用积分
0.0142
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
100 点
帖子
1
精华
0
在线时间
54 小时
注册时间
2016-9-9
最后登录
2020-11-17

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
现在手中有企业三年的信息,包括名称、研发费用和企业年度,现在想设置一个虚拟变量,企业在三年中任意一年有研发费用支出的,每一年的虚拟变量值都设为1;如果三年都没有研发支出,虚拟变量设为0,应该用什么语句呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分组 虚拟变量 研发费用 变量值

沙发
黃河泉 在职认证  发表于 2018-10-9 06:41:19 |只看作者 |坛友微信交流群
你若要问程序,永远附上相关资料;若附上资料,永远用 dataex 印出资料。先 ssc install dataex (并见说明),将原始 Stata 资料中具有”代表性”的一部分资料列出,以供有意回答者实验之用,并能提供具体操作指令。并请参考 http://www.jianshu.com/p/9870080fe769,  https://bbs.pinggu.org/thread-5048204-1-1.html, 与 https://bbs.pinggu.org/thread-5917273-1-1.html
已有 1 人评分经验 论坛币 收起 理由
葫芦娃大王 + 10 + 10 精彩帖子

总评分: 经验 + 10  论坛币 + 10   查看全部评分

使用道具

藤椅
赵安豆 发表于 2024-5-14 04:58:30 |只看作者 |坛友微信交流群
可以使用编程语言如Python的pandas库来实现这个任务。以下是一个简单的示例:

```python
import pandas as pd

# 假设你的数据存储在一个名为df的DataFrame中,且已有'企业名称'、'研发费用'和'企业年度'三列
# 首先,创建一个新列'虚拟变量'
df['虚拟变量'] = 0

# 然后,使用groupby检查每个企业在三年中的研发费用是否为非零,并将结果设为1
for year in range(年份范围的起始值, 年份范围的结束值+1):  # 将'年份范围的起始值'和'年份范围的结束值'替换为实际年份,例如2018, 2019, 2020
    df.loc[(df['企业年度'] == year) & (df['研发费用'] > 0), '虚拟变量'] = 1

# 最后,对于任何三年中虚拟变量仍为0的企业,将其设为1(确保至少有一次研发支出)
df['虚拟变量'] = df.groupby('企业名称')['虚拟变量'].transform('max')

```
这个代码会根据你的需求创建一个名为'虚拟变量'的新列,并按照要求设置值。请将年份范围的起始值和结束值替换为你实际的数据范围,例如2018, 2019, 2020。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-29 14:41