[原创]基于R语言的核回归(Kernal Regression)与最近邻回归(NNBR)

14关注
289
粉丝

已卖：1600份资源

大师

9%

还不是VIP/贵宾

-

0%

威望: 7 级
论坛币: -234429 个
通用积分: 293.4770
学术水平: 3783 点
热心指数: 3819 点
信用等级: 3454 点
经验: 150360 点
帖子: 7597
精华: 32
在线时间: 1329 小时
注册时间: 2013-2-4
最后登录: 2025-3-23

楼主

fantuanxiaot 发表于 2015-8-21 10:01:48 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

1，核回归(Kernal Regression)，首先定义诸如高斯核函数，Epanechnikov核函数，再基于最优宽窗h，并基于Nadaraya-Waston核估计得到结果，代码如下：
1.1，高斯核函数与Epane核函数

本帖隐藏的内容

# Gaussian Kernal
# 高斯核
kernalGaussian <- function(xData)
{
# 得到相应的核函数
if(ncol(xData)!=1)
{
stop('error input data')
}
stdX <- sd(xData)
# 高斯宽带的选择
h <- 1.06*stdX*length(xData)^(-1/5)
kernalX <- 1/(h*sqrt(2*pi)) * exp(-xData^2/(2*h^2))
return(kernalX)
}
# Epanechnikov kernal
kernalEpanechnikov <- function (xData)
{
if(ncol(xData)!=1)
{
stop('error input the data')
}
stdX <- sd(xData)
h<-2.34*stdX*length(xData)^(-1/5)
xPh<- abs(xData/h)
xPh[xPh <=1] <-1
xPh[xPh>1] <- 0
kernalX <- 0.75/h*(1-(xData/h)^2)*xPh
return(kernalX)
}

复制代码

1.2 两个核函数的检测：

本帖隐藏的内容

# 两个核函数的检测
testData1 <- as.matrix(seq(-10,10,by = 0.5))
testData2 <- as.matrix(seq(-10,10,length = 100))
kernalGaussian(testData1)
kernalEpanechnikov(testData2)
# 高斯核的数据的作图
plot(kernalGaussian(testData2))
# Epanechnikov核函数的作图
plot(kernalEpanechnikov(testData2))

复制代码

1.3 以下是著名的Nadaraya-Waston核估计

本帖隐藏的内容

# #########################################################
# 以下是著名的Nadaraya-Waston核估计
# by fantuanxiaot
kernalRegress <- function(xData , yData , kernalName)
{
if(!is.matrix(xData)||!is.matrix(yData))
{
stop('error input the empirical data')
}
# 最终返回针对y的核回归拟合的值
nData<-nrow(xData)
if(nData!=nrow(yData))
{
stop('error input the data')
}
if (!is.character(kernalName) || !length(intersect(c('Gaussian','Epanechnikov'),kernalName)) )
{
stop('error input the kernal name')
}
yRegress <- matrix(NaN , nrow = nData , ncol = 1)
for (i in c(1:nData))
{
x <- xData[i]
xXt <- matrix(x , nrow = nData, ncol = 1) - xData
if (setequal(kernalName , 'Gaussian'))
{
khX <- kernalGaussian(xXt)
} else if (setequal(kernalName , 'Epanechnikov'))
{
khX <- kernalEpanechnikov(xXt)
}
yRegress[i] <- sum(yData*khX)/sum(khX)
}
return(yRegress)
}
# 核回归的检测
x<- as.matrix(rnorm(100,mean = 0,sd = 0.03))
y<- 0.5*x + as.matrix(rnorm(100,mean = 0,sd = 0.01))
cbind(y,kernalRegress(x,y,'Gaussian') , kernalRegress(x,y,'Epanechnikov'))
plot(c(1:100),y,col = 'white')
lines(c(1:100),y,col = 'blue')
lines(c(1:100),kernalRegress(x,y,'Gaussian'),col = 'red')
lines(c(1:100),kernalRegress(x,y,'Epanechnikov'),col = 'green')

复制代码

2，NNBR(最近邻回归)
一篇基本思路的Paper：

knnRegress_基于最近邻抽样回归模型的水文水资源预测.pdf (252.38 KB)
2.1，单变量NBRR源码如下：

本帖隐藏的内容

# 单变量的回归
# NNBR knn近邻回归与预测
# 这里是基于单变量的时间序列
setwd('D:/MyDriversMatlab/Mfiles13')
rm(list=ls())
nnbrRegress<-function (xData , lags , disType)
{
# lags是滞后的阶数P
# outNum是样本外预测的个数
# disType是计算距离的类别
if (!is.matrix(xData))
{
stop('error input the Current Data')
}
if (ncol(xData)!= 1)
{
stop('error input data')
}
if ((nrow(xData) - lags)<1)
{
stop('error input the Data')
}
# 当前的数据集合
currentData <- xData
k <- ceiling(sqrt(nrow(xData) - lags))
# 先计算所有的特征向量
currentVector <- xData[c(( nrow(xData)-lags+1 ):(nrow(xData)))]
currentVector <- t(as.matrix(currentVector))
Vectors<-NULL
xOut<-NULL
# 获取其他的特征向量
i<-1
while(TRUE)
{
if ((i+lags - 1) == (nrow(xData)))
{
break
}
vectors<- t(as.matrix(xData[(i):(i+lags - 1)]))
xOut<-c(xOut,xData[i+lags])
Vectors<-rbind(Vectors,vectors)
i<-i+1
}
# 再从中寻找距离最小的K个值
nV <- nrow(Vectors)
currData <- matrix(rep(currentVector , nV),nrow = nV,byrow = TRUE)
Distance <- sqrt( apply((Vectors - currData)^2,1,sum) )
# 再计算距离的最小的前k个值
# 从大到小的几个下标
Index <- order(Distance)
Index <- Index[c(1:k)]
xOut<-xOut[Index]
DistanceOut <- Distance[Index]
# 对样本外的结果进行预测
# 权重的配置
if (disType == 1)
{
xForecasting <- sum(DistanceOut/sum(DistanceOut)*xOut)
} else
{
xForecasting <- sum((c(k:1)/k)/sum((c(k:1)/k))*xOut)
}
return(xForecasting)
}
data <- as.matrix(cumsum(matrix(rnorm(100),nrow = 100)))
data
nnbrRegress(data,8,1)
nnbrRegress(data,8,2)
# 各种不同的滞后阶数
nnbrRegress(data,10,1)
nnbrRegress(data,10,2)
# 各种不同的滞后阶数
nnbrRegress(data,15,1)
nnbrRegress(data,15,2)
# eof

复制代码

2.2，多变量NNBR源码如下：

本帖隐藏的内容

# D:\MyDriversMatlab\Mfiles13
setwd('D:/MyDriversMatlab/Mfiles13')
# 基于knn回归的最近邻算法
rm(list=ls())
nnbrRegressMultivariate<-function (xData , yData , testData)
{
if(nrow(xData)!=nrow(yData))
{
stop('error input data')
}
if (ncol(xData)!=ncol(testData))
{
stop('error input data')
}
if (!is.matrix(xData) || !is.matrix(yData) || !is.matrix(testData))
{
stop('error input data')
}
# 取得特征向量的个数
k<-ceiling(sqrt(nrow(xData)))
yForecasting<-matrix(NaN , nrow = nrow(testData),ncol = 1)
for (i in c(1:nrow(testData)))
{
x<-testData[i,]
xDataRep <-rep(x,nrow(xData))
xDataRep <- matrix(xDataRep,nrow = nrow(xData) , byrow = TRUE)
# 计算距离
Distance <- sqrt(apply((xData - xDataRep)^2,1,sum))
Index <- order(Distance)
# 选择前k个值
Index<-Index[c(1:k)]
ys<-(yData[Index])
Weight<-(1/Distance)/sum(1/Distance)
yForecasting[i] <-sum(ys*Weight)
}
return(yForecasting)
}
xData <- matrix(rnorm(100),ncol = 4)
yData <- as.matrix(apply(xData,1,mean))
testData <- matrix(rnorm(40),ncol = 4)
nnbrRegressMultivariate(xData , yData , testData)

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享2 收藏90 回帖

关键词：regression regressio regress nbr RES 高斯

回帖推荐

hou0922 发表于107楼查看完整内容

楼主有没有关于用R做kernel regression的资料，最近刚开始学kernel，好多不懂，求指教

gxnnhgm66 发表于123楼查看完整内容

已经转帖。再谢！

Crsky7 发表于11楼查看完整内容

不喜欢用R

已有 13 人评分	经验	论坛币	学术水平	热心指数	信用等级	收起理由
rg11mfl			+ 4		+ 4	精彩帖子
newfei188			+ 1			精彩帖子
harvey_tei			+ 1	+ 1	+ 1	精彩帖子
kongqingbao280	+ 60					对论坛有贡献
Nicolle	+ 100	+ 100	+ 1	+ 1	+ 1	精彩帖子
zbin7451f	+ 100		+ 5	+ 5	+ 5	精彩帖子
sfhsky	+ 60		+ 3	+ 4		精彩帖子
yzz_young		+ 5	+ 4	+ 4	+ 4	精彩帖子
niuniuyiwan	+ 60	+ 60	+ 5	+ 5	+ 5	精彩帖子
我的素质低					+ 5	精彩帖子