ipzlid、年份、公开公告号、公开公告日、引证专利、被引证专利、自引信息、他引信息、被自引信息、被他引信息、家族引证、家族被引证、引证申请人、被引证申请人、家族引证申请人、家族被引证申请人、引证次数、被引证次数、自引次数、他引次数、被自引次数、被他引次数、家族引证次数、家族被引证次数、引证科技文献、引证类别、被引证类别、引证来源、被引证来源、被引证国别_forward
数据格式方面,提供的是供 Stata 读取的 dta 的格式。部分文件大小超过了 10GB,对于内存较小的电脑读取起来会很困难,提供了一次读取部分观测值的方法,例如读取 2020 年文件(55.54GB)的前 10 万行:
usein 1/100000 using "2020.dta", clear使用 Stata 处理这种超大文件就可以一部分一部分的处理(读取之后删除不需要的变量)。
不过读取最后一部分的时候需要知道该文件总共的行数,这时候可以借助 describe 命令:
describe using "2020.dta"*> Contains data
*>
*> Observations: 5,380,580 8 Dec 2024 21:42
*> Variables: 30
*> ---------------------------------------------------------------------
*> Variable Storage Display Value
*> name type format label Variable label
*> ---------------------------------------------------------------------
*> ipzlid str11 %11s
*> 年份 int %10.0g
*> 公开公告号 str13 %-9s
*> 公开公告日 str10 %-9s
*> 引证专利 strL %-9s
*> 被引证专利 strL %-9s
*> 自引信息 str614 %-9s
*> 他引信息 strL %-9s
*> 被自引信息 str873 %-9s
*> 被他引信息 strL %-9s
*> 家族引证 strL %-9s
*> 家族被引证 strL %-9s
*> 引证申请人 strL %-9s
*> 被引证申请人 strL %-9s
*> 家族引证申请人 strL %-9s
*> 家族被引证申请人 strL %-9s
*> 引证次数 int %10.0g
*> 被引证次数 int %10.0g
*> 自引次数 byte %10.0g
*> 他引次数 int %10.0g
*> 被自引次数 byte %10.0g
*> 被他引次数 int %10.0g
*> 家族引证次数 int %10.0g
*> 家族被引证次数 int %10.0g
*> 引证科技文献 strL %-9s
*> 引证类别 str187 %-9s
*> 被引证类别 str233 %-9s
*> 引证来源 str889 %-9s
*> 被引证来源 str79 %-9s
*> 被引证国别_forward
*> str90 %-9s
*> ---------------------------------------------------------------------
*> Sorted by:
除了引用次数,该数据还包含专利引用和和被引用的详细信息。


雷达卡


京公网安备 11010802022788号







