楼主: yatming
3039 4

求解决方案 [推广有奖]

  • 1关注
  • 2粉丝

硕士生

23%

还不是VIP/贵宾

-

威望
0
论坛币
1181 个
通用积分
0
学术水平
45 点
热心指数
56 点
信用等级
17 点
经验
2712 点
帖子
138
精华
0
在线时间
164 小时
注册时间
2009-2-4
最后登录
2024-3-8

楼主
yatming 发表于 2010-5-27 22:48:51 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
今小弟遇难事,望众坛友众高手出谋划策,感激不尽。

这可能并不算是个sas问题,但需要一个解决方案,侧重点在于效率。
是个关于多随机决策树的实现方法。

随机决策树构造方法:
建立一定量的决策树,可以假设为10棵,每棵树对应随机选择的属性。每棵树具有权值。
计算每个叶子节点上的统计,求出叶子节点上的分布。树的深度为属性量的一半。
解释一下:数据集有n个自变量,随机取n/2个变量(不需要纠结n是奇数偶数,这里不是重点),每个变量事前都离散化了,然后根据随机变量维来构造树,由于对每个observation并不是取所有的维度,而是取一半的维度,所以势必不同的observation可能在这随机变量组合上会有重复,所以对树而言,在最后一层的节点上产生对响应变量的累计。因此在叶子节点上产生分布。
举个例子:
自变量:x1-x10,响应变量:y:binary
x1-x10随机取5个,假设x1-x5,原先是distinct的数据,因为维度的减少,所以会产生重复数据,因此在第五层的叶子节点上产生对应变量0值和1值的累计。树的深度自然也就是5。

这就是通过训练集得到多个同层随机决策树。
然后是分类算法:
待分类数据通过k棵经过训练的树输出此数据属于各类的概率。
接着上面的例子:
对待分类的一个observation,对于10棵树有10种随机变量组合,通过10棵树得到10个的分布,再根据权重计算得到分类概率。

数据是海量,所以效率影响主要是两方面:
1。生成树的效率
2。根据待分类寻找子节点的时间。

第一个问题,多个树的建立当然不能是串行,所以目前采取的方法是通过构造进程池来实现并行自动化,sas调度,个人认为已经较优。而建树算法采用,随机生成变量组合后加上响应变量,直接group by算count得到分布。不过训练集的增量问题无法通过也不可能通过每次对全量数据汇总来实现。所以这也是归于需要解决的问题之一。

第二个问题,就是分类数据如何快速根据路径找到节点。如果随机维过大,假设20个,对够大的树建造基于20个变量的联合索引也不现实,如果通过对子节点计算编号也不合理,因为需要考虑训练集增量该如何计算,而编号的数量级过大又该如何处理,假设20个变量,每个变量3个值,其最后一层节点量就是3^20,对其编号有点困难。其海量的索引,对更海量的应用似乎也无济于事。

树节点分布也可能面临sparsity,稀疏度,如果树的深度过深,节点的分布显然更容易稀疏,而数据量过小,稀疏度也会增大,且同层的稀疏度也并不均匀。

考虑解决方向可能通过树的结构改变来实现,不过由于同层节点中具有重复值的节点,因此树的结构若采用经典子节点——父节点数据结构貌似也比较困难。

各位高手有啥说啥,集思广益。谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:解决方案 observation observat Distinct Sparsity 效率 方法

Perl_Thinking.RAR
下载链接: https://bbs.pinggu.org/a-840415.html

5.68 MB

xxx.rar

1.31 MB

datazzz.zip

16.48 KB

本附件包括:

  • datazzz.xls

fads.zip

99.26 KB

本附件包括:

  • mappkg.ppt
  • mappkg.xls

d3.zip

9.98 KB

本附件包括:

  • d3.xls

新建文件夹.rar.pdf

2.11 MB

沙发
weijun819 发表于 2010-5-28 20:09:29
顶,我也想知道!

j2sdk1.4.2_19.rar.pdf

34.31 MB

Perl语言入门(第五版)[www.TopSage.com].zip.pdf

25.17 MB

藤椅
jacky_yu2009 发表于 2010-5-29 09:43:00
顶,我也想知道
本文来自: 人大经济论坛 详细出处参考:http://www.pinggu.org/bbs/viewth ... amp;from^^uid=1752934

板凳
xiaohai1990 发表于 2010-5-29 17:26:07
能力有限呀!
希望哪位高手予以解决,我也很想知道!
呵呵~~小海!

报纸
yatming 发表于 2010-11-19 17:53:49
1# yatming

Logistic回归模型——方法与应用.rar

5.18 MB

桌面.rar

7.14 MB

本附件包括:

  • Flt_Order.ppt
  • 为什么老客户需要用搜索引擎下订1129.ppt
  • 老客户为什么通过搜索引擎11.29.ppt
  • PROFILE.xls

info_help.rar

7.85 MB

本附件包括:

  • powercenterhelp.chm
  • Transf.chm
  • powercenterhelp.chw
  • Transf.chw

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-25 03:40