我有一批类型如下的数据:
企业名(#varname)
豆瓣
豆瓣公司
豆瓣企业
中国豆瓣
美国豆瓣
……
新浪
新浪新闻
新浪中国
美国新浪
……
我想生成一个新的虚拟变量,相同企业归为一类,数据类型如下所示:
企业名(#varname) 类别(#dummyvar)
豆瓣 1
豆瓣公司 1
豆瓣企业 1
中国豆瓣 1
美国豆瓣 1
…… ……
新浪 2000
新浪新闻 2000
新浪中国 2000
美国新浪 2000
…… ……
对我的难点主要在以下两点:
- 相同企业的名称变量是不统一的,人肉眼一眼就可以看出来含豆瓣应归为1类,但不知道机器如何去判断;
- 数据量太大,可能有快1万个企业,因此不可能人工去drop。
谢谢!


雷达卡




京公网安备 11010802022788号







