随机森林二元分类的错误率随着ejecicorr(|e(i)|,|e(j)|)而降低,其中e(i)和e(j)是树i和树j(i6=j)的预测误差。证据Breiman(2001)证明了随机森林的错误率随着Ejeichcorr(rmg(bX(i)),rmg(bX(j)))i而降低,其中rmg(bX(i))表示树i预测的原始边缘函数。在二元分类下,原始边际函数定义为rmg(bX(i))=i(bX(i)=X)-I(bX(I)6=X),其中I是一个指示符函数,用于检查向量X(I)和X元素,如果封闭关系为真,则取值1,否则取值0。换句话说,I(bX(I)=X)是一个向量,正确的预测用1标记,I(bX(I)6=X)是一个向量,错误的预测用1标记。将1=(1,…,1)表示为1的向量,长度与预测向量相同。显然,我们有I(bX(I)=X)=1- I(bX(I)6=X)和I(bX(I)6=X)=|e(I)|。因此,我们知道Corr((rmg(bX(i)),rmg(bX(j))=Corr(i(bX(i)=X)-I(bX(I)6=X),I(bX(j)=X)-I(bX(j)6=X))=Corr(1)-2I(bX(i)6=X),1- 2I(bX(j)6=X))=Corr(I(bX(I)6=X),I(bX(j)6=X))=Corr(|e(I)|,|e(j)|)。定理3。我∈ {1,…,M},Cov(e(i),X)<0。证据对于给定的样本大小为N的情况,我们证明了这个定理。为了简单起见,我们写下基本真值asX={ak}Nk=1,同样地写下树i的预测向量和误差向量asbX(i)={pik}Nk=1,e(i)={eik}Nk=1。假设ak=α和pik=β的数据点的数量是nαβ(α,β∈ {0, 1}). 很明显,n+n+n+n=n,X和e(i)之间的关系b完全描述如下:o存在数据点,其中ak=0,eik=0;o存在ak=0和eik=1的数据点存在ak=1和eik=-1;o 存在ak=1和eik=0的数据点。接下来,写出Cov(e(i),X)=N(NPeikak)-佩克)。请注意,Peikak=-n、 佩克=n- n、 andPak=n+n。
|