人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › Stata专版 › 如何对数据分组设置虚拟变量

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: yuqilin135

4197 2

[数据管理求助] 如何对数据分组设置虚拟变量 [推广有奖]

0关注
0粉丝

高中生

32%

还不是VIP/贵宾

威望: 0 级
论坛币: 7 个
通用积分: 0.0142
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 100 点
帖子: 1
精华: 0
在线时间: 54 小时
注册时间: 2016-9-9
最后登录: 2020-11-17

楼主

yuqilin135 发表于 2018-10-8 22:21:14 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

现在手中有企业三年的信息，包括名称、研发费用和企业年度，现在想设置一个虚拟变量，企业在三年中任意一年有研发费用支出的，每一年的虚拟变量值都设为1；如果三年都没有研发支出，虚拟变量设为0，应该用什么语句呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：数据分组虚拟变量研发费用变量值

相关帖子

使用道具举报

沙发

黃河泉

发表于 2018-10-9 06:41:19 |只看作者 |坛友微信交流群

你若要问程序，永远附上相关资料；若附上资料，永远用 dataex 印出资料。先 ssc install dataex (并见说明)，将原始 Stata 资料中具有”代表性”的一部分资料列出，以供有意回答者实验之用，并能提供具体操作指令。并请参考 http://www.jianshu.com/p/9870080fe769, https://bbs.pinggu.org/thread-5048204-1-1.html, 与 https://bbs.pinggu.org/thread-5917273-1-1.html。

已有 1 人评分	经验	论坛币	收起理由
葫芦娃大王	+ 10	+ 10	精彩帖子

总评分: 经验 + 10 论坛币 + 10 查看全部评分

使用道具举报

藤椅

赵安豆 发表于 2024-5-14 04:58:30 |只看作者 |坛友微信交流群

可以使用编程语言如Python的pandas库来实现这个任务。以下是一个简单的示例：

```python
import pandas as pd

# 假设你的数据存储在一个名为df的DataFrame中，且已有'企业名称'、'研发费用'和'企业年度'三列
# 首先，创建一个新列'虚拟变量'
df['虚拟变量'] = 0

# 然后，使用groupby检查每个企业在三年中的研发费用是否为非零，并将结果设为1
for year in range(年份范围的起始值, 年份范围的结束值+1): # 将'年份范围的起始值'和'年份范围的结束值'替换为实际年份，例如2018, 2019, 2020
df.loc[(df['企业年度'] == year) & (df['研发费用'] > 0), '虚拟变量'] = 1

# 最后，对于任何三年中虚拟变量仍为0的企业，将其设为1（确保至少有一次研发支出）
df['虚拟变量'] = df.groupby('企业名称')['虚拟变量'].transform('max')

```
这个代码会根据你的需求创建一个名为'虚拟变量'的新列，并按照要求设置值。请将年份范围的起始值和结束值替换为你实际的数据范围，例如2018, 2019, 2020。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用