楼主: douban
3921 1

[数据管理求助] 如何批量生成特殊字符型变量的虚拟变量?谢谢! [推广有奖]

  • 3关注
  • 1粉丝

本科生

74%

还不是VIP/贵宾

-

威望
0
论坛币
2 个
通用积分
32.6077
学术水平
10 点
热心指数
11 点
信用等级
7 点
经验
483 点
帖子
42
精华
0
在线时间
176 小时
注册时间
2009-12-10
最后登录
2024-8-13

楼主
douban 发表于 2013-8-24 01:52:44 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
最近用stata分析数据有个问题一直解决不了,请教一下大家,问题描述如下。



我有一批类型如下的数据:

企业名(#varname)
豆瓣
豆瓣公司
豆瓣企业
中国豆瓣
美国豆瓣
……
新浪
新浪新闻
新浪中国
美国新浪

……


我想生成一个新的虚拟变量,相同企业归为一类,数据类型如下所示:
企业名(#varname)       类别(#dummyvar)
豆瓣                              1
豆瓣公司                        1
豆瓣企业                        1
中国豆瓣                        1
美国豆瓣                        1
……                               ……
新浪                              2000
新浪新闻                        2000
新浪中国                        2000
美国新浪                        2000

……                                ……


对我的难点主要在以下两点:
  • 相同企业的名称变量是不统一的,人肉眼一眼就可以看出来含豆瓣应归为1类,但不知道机器如何去判断;
  • 数据量太大,可能有快1万个企业,因此不可能人工去drop。
请问各位大大这种情况如何去做?

谢谢!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:字符型变量 特殊字符 虚拟变量 字符型 STATA分析 如何

沙发
thomaszt 学生认证  发表于 2013-10-30 21:59:10
同问,求高手解答!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-9 08:59