人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版 › Gini指数：利用Gini指数变量最优分类

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 下一页

发帖

楼主: ada89k

95981 10

[学习分享] Gini指数：利用Gini指数变量最优分类 [推广有奖]

3关注
72粉丝

院士

99%

还不是VIP/贵宾

威望: 2 级
论坛币: 613777 个
通用积分: 16.9958
学术水平: 123 点
热心指数: 149 点
信用等级: 82 点
经验: 46289 点
帖子: 1667
精华: 3
在线时间: 2443 小时
注册时间: 2017-2-7
最后登录: 2024-4-22

楼主

ada89k

发表于 2017-8-26 17:25:40 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

Gini指数：利用Gini指数变量最优分类

介绍基本的思想：
   由于gini指数是衡量数据的不纯度，gini指数越大则表示数据越不纯，gini越小表示数据相对越纯。所有我们就需要在我们在确定切分点分类时候需保证在这个切分点时需要比在其他点切分时候gini指数小，那么则表示在这个切分点切分是最优的。

步骤：
1、计算切分前的整体gini指数；
2、遍历所有潜在切分点，分别计算切分后的gini指数，选取切分后gini指数最小的切分点；
3、分别对第一次切分后的类重复上述1、2步骤直至达到我们想要的类别。

OK！直接贴上代码。

/*分类变量基于gini系数变量最优粗分类*/
options mlogic mprint symbolgen;
%macrogini_fz(indata=,var=,tar_var=,outdata=,g_value=);
libname data "/folders/myfolders/data/";
data temp;
set &indata.;
run;
%local m n;
proc sql noprint;
select max(&var.) into: m from temp;/*取分组变量的最大值*/
select min(&var.) into: n from temp;/*取分组变量的最小值*/
select count(&var.) into:total from temp;/*取总体数量*/

%do a = &n. %to &m.;
select sum(n_b) into:T_&a._1 from temp where &var.=&a.;/*违约客户的数量*/
select sum(n_g) into: T_&a._0 from temp where &var.=&a.;/*非违约客户的数量*/
select sum(total) into:T_&a._s from temp where &var.=&a.;/*该分组下的违约和非违约客户的的总数量*/
select sum(n_b) into:T_1 from temp;/*总体中违约客户的数量*/
select sum(n_g) into:T_0 from temp;/*总体中非违约客户的数量*/
;
%end;
quit;
%put &m. &n. &total. &T_1.&T_0.;
/*分别计算每组中的样本占比*/
%do a=&n. %to &m.;
%local g_&a.;
%let g_&a.=0;

%do b=0 %to 1;
   %letg_&a.=%sysevalf(&&g_&a.+&&T_&a._&b.*&&T_&a._&b.);
%end;

%letg_&a.=%sysevalf(1-&&g_&a./(&&T_&a._s*&&T_&a._s));
%end;
/*计算总体中的占比*/
%local g;
%let g=0;
%do b=0 %to 1;
%let g=%sysevalf(&&g.+&&T_&b.*&&T_&b.);
%end;
%letg=%sysevalf(1-&&g./(&&total.*&&total.));
%put &g.;
/*计算各分组下的gini系数*/
%local g_k;
%let g_k=0;
%do a=&n. %to &m.;
%letg_k=%sysevalf(&&g_k.+&&T_&a._s*&&g_&a./&&total.);
%end;
%letg_value=%sysevalf(1-&&g_k./&&g.);
%put &g_value.;
/*生成数据集*/
data &outdata.;
   %doa=&n. %to &m.;
         fenzu=&a.;
         bad=&&T_&a._1;
         good=&&T_&a._0;
         g_b_total=&&T_&a._s;
         g=&&g_&a.;
         g_total=&g_k.;
         output;
   %end;
run;
proc sort data=&outdata. ; bydescending g;run; /*按照每个分组的gini系数降序排列*/
%mend;
/*%gini_fz(indata=data.xinyong,var=address,tar_var=default,outdata=g_out,g_value=);*/

/*基于gini系数对变量进行粗分类*/
%macrogini_c(indata=,var=,tar_var=,b_max=,out_data=);
data temp_a;
set &indata.;
run;
proc freq data=temp_a;/*统计变量下目标变量的频数*/
table &var.*&tar_var. /out=ss_1(drop=percent) norow nopercent;
table &var. /out=ss_2(drop=percent) norow nopercent;
;
run;
proc sort data=ss_1 ;by &var. ;run;
proc sort data=ss_2 ;by &var. ;run;
data temp_b;
merge ss_1(in=a rename=(count=n_b))
      ss_2(in=b rename=(count=total))
      ;
by &var.;
if a;
run;
data temp_b;
set temp_b;
if &tar_var.=0 then delete;
n_g=total-n_b;/*好客户的数量*/
b_pct=n_b/total;/*坏客户在本组下的占比*/
bin=1;/*初始化_全部都为一组*/
run;
proc sort data=temp_b;by bin b_pct;run;/*按照分组、坏客户占比升序排列*/
data temp_b;
set temp_b;
i=_N_;
run;
/**********************************START_确定分组的最优分类过程*************************************************/
%do k = 1 %to %eval(&b_max.-1);
proc sql noprint;
select max(bin) into:bin from temp_b;
quit;
%put &bin.;
%do i=1 %to &bin.;
   procsql noprint;
         select count(*) into:num_&i. fromtemp_b where bin=&i.;
         create table temp_b_&i. as select *from temp_b where bin=&i.;
   quit;
   %put&&num_&i..;
%end;
proc sql noprint;
create table temp_b_value(BinToSplit num, DatasetName char(80), Valuenum)
;
quit;
%do i=1 %to &bin.;
%if &&num_&i.>1 %then %do;

proc sql noprint;
      select count(*) into:nb from temp_b_&i. where bin=&i.;
quit;

%let best_value=0;
%let best_i=1;

%do m=1 %to %eval(&nb.-1);
%let value=0;
   procsql noprint;
         select sum(n_b) into:n_b_1 fromtemp_b_&i. where i<=&m.;
         select sum(n_b) into:n_b_2 fromtemp_b_&i. where i>&m.;
         select sum(n_g) into:n_g_1 fromtemp_b_&i. where i<=&m.;
         select sum(n_g) into:n_g_2 fromtemp_b_&i. where i>&m.;
         select sum(total) into:n_t_1 fromtemp_b_&i. where i<=&m.;
         select sum(total) into:n_t_2 fromtemp_b_&i. where i>&m.;
         select sum(n_b) into:n_b_t fromtemp_b_&i. ;
         select sum(n_g) into:n_g_t fromtemp_b_&i. ;
         select sum(total) into:n_t fromtemp_b_&i. ;
   quit;

   %localg_1 g_2 g g_t g_z;
   %letg_1=%sysevalf(1-(&n_b_1.*&n_b_1.+&n_g_1.*&n_g_1.)/(&n_t_1.*&n_t_1.));
   %letg_2=%sysevalf(1-(&n_b_2.*&n_b_2.+&n_g_2.*&n_g_2.)/(&n_t_2.*&n_t_2.));
   %letg=%sysevalf(1-(&n_b_t.*&n_b_t.+&n_g_t.*&n_g_t.)/(&n_t.*&n_t.));/*为分组前的总体gini系数*/
   %letg_t=%sysevalf(&n_t_1.*&g_1./&n_t.+&n_t_2.*&g_2./&n_t.);/*分组后的gini系数*/
   %letg_z=%sysevalf(1-&g_t./&g.);/*将分组前和分组后的gini系数进行比较，并赋值与g_z*/
   %letvalue=&g_z.;
   %put&g_1. &g_2. &g. &g_t. &g_z. &value.;

%if %sysevalf(&best_value.<&value.) %then %do;/*根据gini系数，此处选取规则需要选取分组后gini系数更小的(意味着分组后纯度更高了)*/
   %let best_value=&value.;
   %let best_i=&m.;
%end;
%end;

data temp_b_&i.;/*根据遍历的最小的value确定切分点和分组*/
      set temp_b_&i.;
      if i<=&best_i. then split=1;
      else split=0;
      drop i;
run;
proc sort data=temp_b_&i. ;by split b_pct;run;

data temp_b_try&i.;/*将预计切分的数据拿出来*/
      set temp_b_&i.;
      if split=1 then bin=%eval(&bin.+1);
run;
data temp_b_in&i.;
      set temp_b;
      if bin=&i. then delete;
run;
data temp_b_in&i.;/*将预计切分的数据集与之前未拆分的部分合并为最新的数据集*/
      set temp_b_in&i.
         temp_b_try&i.
      ;
run;
%gini_fz(indata=temp_b_in&i.,var=bin,tar_var=default,outdata=g_out,g_value=value);

proc sql noprint;
      insert into temp_b_valuevalues(&i.,"temp_b_in&i.",&value.);
quit;

%end;
%end;
proc sort data=temp_b_value;by descendingvalue;run;/*选取各组切分后gini指数最小的切分点，也即value值最大的*/
data _null_;
set temp_b_value;
if _N_=1 then call symput ("n",compress(BinToSplit));
run;
%put &n.;
data temp_b;
set temp_b_in&n.;
drop i;
run;
proc sort data=temp_b ;by bin b_pct;run;
data temp_b;/*重新再每个bin组定义i变量值，以便于下次循环切分*/
set temp_b;
retain i 0;
by bin b_pct;
if first.bin then i=1;
else i=i+1;
run;
%end;
data temp_final;
set temp_b;
run;
data &out_data.;
retain &var. n_b n_g total bin ;
set temp_final;
keep &var. n_b n_g total bin ;
label &var.="原分组" n_b="违约客户量" n_g="正常客户量" total="总客户量" bin="新分组";
run;
proc sort data=&out_data ; by bin ;run;
/**********************************END_确定分组的最优分类过程*************************************************/
proc datasets lib=work ;/*仅保留输出数据集*/
save &out_data.;
run;
%mend;
%gini_c(indata=data.xinyong,var=employ,tar_var=default,b_max=4,out_data=g_best_out);

%gini_c宏中indata为输入数据集；
                  var为需分类的变量；
                  tar_var为目标变量；
                  b_max为想分为多少类；
                  outdata为输出数据集.
%gini_fz宏中indata为输入数据集；
                  var为需分类的变量；
                  tar_var为目标变量；
                  outdata为输出数据集；
                  g_value输出g_value.

贴上输出的结果图：
   结果是对employ变量的30多个组进行最优分类，最后分为4类的最优分类的结果在bin列。当然这里也可以自定义分为3类、5类、6类等等，都可以相应的输出相应的最优分类。
PS:n_b为每组对应的坏客户的数量、n_g对应的好客户的数量、total是改组客户数量总和。

QQ图片20170826170140.png

QQ图片20170826170311.png

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏6 回帖

关键词：nopercent proc sql percent dataset libname Gini指数 Gini Gini指数变量变量最优分类 gini指数最小的切分点

[学习分享] Gini指数：利用Gini指数变量最优分类 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[学习分享] Gini指数：利用Gini指数变量最优分类 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群