* 根据分类号筛选
use gqzl2013sim, clear
drop 主分类号
由于每个专利对应着多个分类号,分类号之间使用“;”分隔。所以首先我们需要先把分类号拆分开,这里有两种办法。
[size=1em]方法一:split + gathersplit 分类号, parse(";")
drop 分类号
* 安装 gather:ssc install tidy
gather 分类号*
drop if missing(value)
drop var
ren value 分类号
save data1, replace
不过这种方法对于大数据的操作会非常慢,可以考虑使用循环 + append
[size=1em]方法二:split + forval + appenduse gqzl2013sim, clearsplit 分类号, parse(";")
ret list
local k_new = r(k_new)
drop 分类号 主分类号
save temp, replace
use temp, clear
keep zlid gqid 分类号1
drop if missing(分类号1)
ren 分类号1 分类号
save data2, replace
forval i = 2/`k_new' {
di "`i'"
qui {
use temp, clear
keep zlid gqid 分类号`i'
drop if missing(分类号`i')
ren 分类号`i' 分类号
append using data2
save data2, replace
}
}
这种方法虽然代码稍微复杂,但是电脑处理起来更容易,不容易卡死,两种方法会得到同样的结果。
下面我们再处理分类号:
* 删除分类号里面不需要的部分
use data2, clear
replace 分类号 = ustrregexs(1) if ustrregexm(分类号, "(.*)\(")
drop if !index(分类号, "/")
save data3, replace
* 再检查下有没有别的问题了
use data3, clear
keep if index(分类号, " ")
* 如有问题的话再一一处理
然后我们就可以根据绿色专利列表进行筛选了
二、数据说明:
附件中有提供 2013 年的数据:
完整版:工企专利匹配2013(完整版).dta
汇总版:工企专利数量2013.dta
完整版是直接把工企数据和专利数据进行匹配,里面的一条条观测值是一条条的专利;,而汇总版是汇总每家工企申请的各种类型的专利数量以及所有专利的数量。


雷达卡




京公网安备 11010802022788号







