下面我们来检验时间t是否是必须的变量,即模型是否存在过拟合现象。
1.做OLS回归
从回归结果,我们可以看到时间变量t系数的p值是0.7201,在5%显著性水平下大于0.05,显著性不强,但是我们进行显著性检验的目的是来判断过度拟合假设是否成立,不能用于筛选变量。
代码:
- setwd("D:\\Admin\\桌面") # 改变默认读取文件路径
- s <- read.table("4.2.1.csv", header = TRUE, sep=",") # 读取数据
- t <- unlist(s$年份)# 时间
- q <- unlist(s$实际GDP指数.1978年为100.) # 产出量
- k <- unlist(s$资本存量.亿元.1952年不变价.) # 资本投入量
- l <- unlist(s$从业人数.万人.) # 劳动投入量
- summary(lm(log(q)~log(k)+log(l)+t)) # 线性回归
R语言中读取的数据如果不是csv文件,可以下载openxlsx包,用read.xlsx函数读取,一般建议大家用csv文件,不仅仅是因为它不需要下载包,实际应用中能少很多问题。
提取数据集某一列的时候一定要看看你提取数据后的类型,如果数据比如像”3.2.1”,它有两个小数点,会导致这一列的数据都是字符串。
R语言转换数据类型,有时候用as.vector()转换出来的数据不一定是向量数据类型。在R语言中列表list和向量vector比较混,如果你转换向量却出现了列表,用unlist()或许会帮助你解决问题。


雷达卡



京公网安备 11010802022788号







