楼主: wolfcrying
17054 66

请问SAS教学比较强的学校和院系 [推广有奖]

31
bioman82 发表于 2008-3-14 23:32:00
<p>logistic regression里面对categorical data的压缩吧。楼住提到的第三个问题核心应该就是categorical data reduction把email或者职业的几百个level压缩。。。</p><p>具体方法偶就不说了,学习过dm的应该都了解。</p>

32
kuhasu 发表于 2008-3-15 01:37:00
<p>呵呵,生气了。</p><p>我又回去仔细看了下前面的帖子。</p><p>一开始:</p><p><strong>“因此,我希望大家能给我多提供一点信息,帮助我们了解哪些院系的教学有特色,这样我们就可以定向进行招聘,提高效率。</strong></p><p><strong>&nbsp;&nbsp;&nbsp;&nbsp; 分享不仅可以给自己一个崭新的机会,同时,也为你的同学创造机会!否则受我的经验所限,就只能在我了解的范围内进行招聘,对其他院校的同学,似乎显得有些不公平”</strong></p><p>态度相当诚恳,而且看出来工作比较认真,这在年轻人里是比较少见的。</p><p><strong>“我觉得应届生还是谦虚一点好,谈能力还不是时候。</strong></p><p><strong>数据挖掘绝对不是了解几个数据挖掘算法就可以的。数据库/ETL/数据仓库/数据准备/变量选择/模型开发/部署和监控/业务规则,尤其是行业经验和异常处理,都是数据挖掘的必备条件,另外还要能有效跟非专业用户沟通,和IT沟通,和高管沟通,请问有几位同学具备这样的条件。”</strong></p><p>说的也很中肯,而且反映了实情。</p><p>所以我才提出我的一些看法,希望给你些参考,因为很多东西都是以前招人的时候犯过的错误。浪费了不少时间和资源。</p><p>分歧出现在这里</p><p><strong>“SAS在挖掘项目中根本不起决定性作用,但是掌握SAS的话上手比较快,不用我再花半年时间培养大家做SAS程序员。另外,SAS的重要性体现在数据清洗阶段,而不是建模阶段。”</strong></p><p>还有<strong>“可以跟我谈潜力,但不要开口就跟我谈能力”</strong>这种高高在上的口气我是比较反感。</p><p>但是,为了说明sas的作用,我在随后给出了证据来支持。其中一份是SAS Global Forum 2008(原SUGI),作者我想国人大概有些经验的都认识,起码听过他。如果说老美在这方面比中国先走,有些优势,我想没人会反对吧。商务智能在中国的发展,实际情况我想是有目共睹的,什么水平大家心里都有数。但是,你这时候却显得不怎么“谦虚”了:</p><p><strong>“hehe,实在忍不住看了楼上的PPT,发现这里真的是校园版的SAS论坛.SAS STAT/ETS提供多种回归过程, NLMIX只是其中一种,还有什么PDLREG, LSREG,MODEL,不一一列举,说实话,这些复杂的回归过程目前在企业的实际应用情况来看,根本就用不着.</strong></p><p><strong>大家别不信,SAS自己的挖掘工具 Enterprise Miner就收录两类回归过程,在其Regression节点,就是线性回归和Logistic回归,其余预测性模型也就是Nerual Network, Decision Tree,艰深晦涩的理论SAS自己都不推, 更不是目前企业应用的主流.</strong></p><p><strong>理论研究追求的是体系完整,象联列方程组一样试图用一个模型解决很多的问题.这是因为理论研究可获得的变量信息太少,为了不浪费协方差结构里信息,因此大多数理论面对的是信息缺乏的问题.但就企业实际应用而言,企业不需要复杂的模型,一个复杂的问题化为若干相对简单的问题,然后在用一个相对简单的模型去解决一个相对简单的问题.因为企业的数据库里有太多的变量可以用,要解决的是信息泛滥的问题.</strong></p><p><strong>看来国内的教学真的是太学院派了,离商业应用的差距真是太远了.<br/>”</strong>&nbsp;</p><p>本来这只不过是为了证明sas不仅仅在data cleaning方面有优势,还有建模也很厉害,可是在国内却有这样的误区,真不知道是因为什么。</p><p>还有,既然楼主的态度好,又为人谦虚,可是为什么又“<strong>发现这里真的是校园版的SAS论坛</strong>”“<strong>看来国内的教学真的是太学院派了,离商业应用的差距真是太远了” </strong>这表明这可能是自身真正的想法。还有ppt最后是有署名作者和公司的,所以我很奇怪怎么会有这样的言辞出来。而且我完全有理由怀疑你是没看,还是没看懂。因此我想说你菜还真是没冤枉你。其实搞过些sas,数据挖掘,或者有统计背景的英语能看懂的话已经很明白我的意思了。而且到这时候我还是在交流。你前后不符的言行着实另我很不舒服,前面是很好很谦虚,后面却很傲很无理(这也是为了这坛子里的各位教授和学生,说实话,不少人水平相当的可以!)。另外你如此贬低一个高级分析师(真正有能力的人),我得出的结论大家用脚丫子都能想出来,就股票而言,如果一个上市公司/银行的主要分析师的能力有问题的话,极有可能这个公司的业绩不会太好,这个是常识。不算过分的话。</p><p>可是,这时候你居然跟我端起架子来<strong>“kuhasu,就依你目前的水平和态度,白给我干我都不招。”</strong>可能前提假设成我是学生,处于招聘用人的被动地位,没有任何优势了。<strong>“如果做不到,或者琢磨不清楚,就少一些狂妄,多一份谦虚吧,少在我面前谈水平。”十分另人生气的腔调。</strong>看样子是想让我闭嘴。所以我报下身份难道是无理吗“客观地讲,我的职级比你高,报酬所得的话你应该比不了。:)不要以为在这里的都是学生。”至于你谈论项目的语气和措辞,“<strong>你要真想了解数据挖掘,去研究下Enterprise Miner吧,如果觉得你的SAS水平够牛,你也可以试试如何用Hash实现表链接,如何SAS代码实现Intergroup Grouping。如果你想了解模型,你可以去琢磨下如何把收入、年龄、职业、性别、手机号码、email地址这些不同性质,不同量纲的变量放到模型里去做二元logistic回归。如果做不到,或者琢磨不清楚,就少一些狂妄,多一份谦虚吧,少在我面前谈水平。还有就是如果你觉得SAS的BI产品够牛,你可以去了解了解汇丰、花旗、BOA,四大行,还有上规模的中小银行,电信,证券,看看他们是怎么用SAS的,怎么管理ETL的。如果你还觉得不服,你去了解下目前国内外银行监管炙手可热的BASEL 2项目,可以说是集数据分析和挖掘之大成,在所有的项目招标中,SAS中标的有几家。”</strong>看出来似乎你真的没太多经验.......至于这句<strong>“SAS是棵好树,但千万不要以为一颗大树就可以撑起一片天。而各位热爱SAS的朋友,也不要以为SAS是块宝就抱着不放,不小心就成了井底之蛙”,</strong>把所有人都一棒子打死,连我都没说过SAS百分百好,真是奇怪你好好看我的回复了没有?</p><p>还有,哪怕是sas base programming培训,也会都讲过EM其实就是base程序的一个GUI实现。所以实际上所有的EM功能都能用base实现是公认的事实。</p><p>其实根本就没有偏离SAS讨论的本质,你难道让所有后来看你帖子的人都认为sas只会数据清洗吗?亦或是建模只占一小部分(是指需要的时间还是重要性呢)?这样误导别人那还不如一开始就没人知道的好。</p><p>可能你的确会对“专业水平将会影响大家对我的团队的信心,从而影响我工作的完成。”比较担心,但是实际上我一直是本着交流的目的和思想。只不过你缺乏些耐心。那个report如果你仔细看了,看明白了,就不难明白我的意思。可是你却抛出那么一段话......所以你以后的工作怎么样,那是你的问题。而且这里的讨论仅仅是交流,跟其他的没有关系。有的时候并不是两个人,是代表两类人两种思想。论坛讨论的好处就是这样,没什么不好意思的,不用把个人看的太重。要是在网络你都不能心情愉快的交流发表自己的看法,那不是太郁闷了。而我并没有在招聘区你的帖子进行回复,相信你是可以了解我的意思了。</p><p>至于,你提的问题,第一个第三个没什么好说的。第二个,IGN的模拟问题</p><p>&nbsp;2.公布你用SAS base代码实现Enterprise Miner里的Interactive Grouping的算法和功能(我认为这点SAS Base实现起来很困难,如果要考虑灵活高效的话)-----------你说的一点儿都没错,因为以前有授权模块的使用问题,所以对ING模拟过。但是我是说EM的功能base都能做到,可没说一定灵活高效(可视化)---对于习惯于可视化操作的分析师来说,base很难达到这样,真正模拟的好的话那直接用那个node不就可以了。但是如果是用快速高效的话,base编出来的肯定是别的比不了。而且因为市场定位的关系。EM的认可度高些,但也有算法等缺陷,所以很多还是要base来实现。</p><p>你的激将法对我没什么用,我没心情做义工:)</p><p>要是几年前,我估计我肯定会大段代码和演示往上贴</p><p>最后,祝你身体健康、工作顺利!</p><p>另外对毕业生要说的是:他们那里还不错,毕业生一定要踏踏实实的先积累经验。</p>

33
kuhasu 发表于 2008-3-15 01:42:00
<p>还有,提醒下现在想从事这类工作的同学们,在中国的社会,不是好就一定能拿分。</p><p>在决策层选择这一类的产品和服务时,考虑的不见得是东西的好坏,有不少的利益关系在里面。</p>

34
wolfcrying 发表于 2008-3-15 02:39:00
<p>&nbsp;&nbsp;&nbsp; 呵呵,谢谢kuhasu的认可,说我们这里还不错,不过实事求是地说,我们还处于起步阶段,虽然个人能力都还过得去,但是整体的架构和体系还在一步一步地完善之中。所以有很多地方要跟大家沟通和交流。</p><p>&nbsp;&nbsp;&nbsp; 同时也要感谢kuhasu的中肯的建议,也提醒我要不断地进步,去思考在不同的应用环境下,大家对工具的使用都会有差异,各有侧重,自己的经验不见得错,也不见得就是对,提倡求同存异,忌讳以偏概全。</p><p>&nbsp;&nbsp;&nbsp; 也许争论的焦点就在SAS在数据挖掘过程中建模环节的作用,我再澄清一下,我的本意应该是这样。我认为数据清洗(当然不仅仅是工具的使用,还有大量的业务经验)的分量占到60-70%,而建模的比重不过10%。对于数据清洗,SAS的地位绝对无对手可撼动,没有别的工具可替代。但在建模环节,SAS同样也是最好的工具,但即便是最好,它也最多发挥10%的重用,而且并不是不可替代。因此从这个意义上说,我认为SAS的重要性更多体现在数据清洗阶段,而不是建摸阶段(尽管它是最好的建摸工具)。</p><p>&nbsp;&nbsp;&nbsp; 但这10%同样不可缺少,往往对这10%的作用,建摸分析师要付出90%的积累和努力,这也是我为什么说数据挖掘艰辛的原因。</p><p>&nbsp;&nbsp;&nbsp;&nbsp; 不过既然大家都这么热心,对于第一个问题,还请kuhasu给大家一点指点,我知道一点,写一段实例代码不会超过10行,只是我自己不是很确定我的程序写法是否正确,所以还请老兄多费费心,如果觉得实在是懒得写,我过两天整理下思路,贴上来,Kuhasu帮我解释下如何,也让关心本帖的朋友能有所受益,不知妥否?</p><p>&nbsp;&nbsp;&nbsp; 最后也祝大家工作学习顺利,好好学习,天天进步,共同推动数据挖掘在中国的应用!</p>

[此贴子已经被作者于2008-3-16 10:43:25编辑过]

35
wxq1638 发表于 2008-3-15 13:28:00
<div class="quote"><b>以下是引用<i>kuhasu</i>在2008-3-15 1:42:00的发言:</b><br/><p>还有,提醒下现在想从事这类工作的同学们,在中国的社会,不是好就一定能拿分。</p><p>在决策层选择这一类的产品和服务时,考虑的不见得是东西的好坏,有不少的利益关系在里面。</p></div><p>中国就是人情、关系网社会。</p><p>好学问就是好酒,评出味的人不多。比较好的就是自己评味,自己满足即可。</p><p>借用二刻《拍案惊奇》</p><p>日日杯深酒满&nbsp; 朝朝小圃花开</p><p>自歌自舞自开怀 且喜无拘无碍</p><p>青史几番春梦 红尘许多奇才</p><p>不须计较与安排</p><p>领取而今现在</p><p>看得出 二大高人都厉害</p><p></p>

36
kuhasu 发表于 2008-3-15 23:38:00
<p>FYI</p><p>
</p><p>data _null_; <br/>&nbsp;&nbsp;&nbsp; length id 8; <br/>&nbsp;&nbsp;&nbsp; length xxx $6; <br/>&nbsp;&nbsp;&nbsp; declare hash h1(dataset: "work.A", hashexp: 6, ordered: 'yes'); <br/>&nbsp;&nbsp;&nbsp; h1.defineKey('n','id'); /*'cause there is an ordered option,u needn't sort the raw dataset before hash it*/<br/>&nbsp;&nbsp;&nbsp; h1.defineData('id','xxx'); <br/>&nbsp;&nbsp;&nbsp; h1.defineDone(); <br/>&nbsp;&nbsp;&nbsp; declare hiter myiter('h1'); <br/>&nbsp;&nbsp;&nbsp; do while (0=myiter.next()); <br/>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; put id= xxx=; <br/>&nbsp;&nbsp;&nbsp; end; <br/>run; </p><p>
</p><p></p><p>And if you just wanna merge datasets,try format statment,it can save u almost 80% of time u spend on sort and merge.</p><p>(when there is a small size dataset and a large size dataset).</p><p>Cheers!</p>

37
kuhasu 发表于 2008-3-15 23:40:00
<p>共同推动数据挖掘在中国的应用!</p>

38
wolfcrying 发表于 2008-3-15 23:57:00
<p>呵呵,不错,赞一个。hash的定义和我掌握的一样,可是如何进行表连接呢,kuhasu兄提供的范例没有说明如何进行表连接,借花献佛,假如要合并A,B两个数据集,生成C</p><p>data&nbsp;C;<br/>&nbsp;&nbsp;&nbsp;if _n_=1 then do;</p><p>&nbsp;&nbsp;&nbsp; if 0 then set&nbsp;A;</p><p>&nbsp;&nbsp;&nbsp;&nbsp; declare hash h1(dataset: "work.A"); <br/>&nbsp;&nbsp;&nbsp; h1.defineKey('n','id');&nbsp;&nbsp;&nbsp; h1.defineData('id','xxx'); <br/>&nbsp;&nbsp;&nbsp; h1.defineDone();&nbsp;<br/>&nbsp;&nbsp;&nbsp; end;</p><p>&nbsp;&nbsp;&nbsp; SET B;</p><p>findresult=h1.find();<br/>if findresult=0 then output;<br/>run;&nbsp; </p><p></p><p>有点搞不懂 if 0是什么意思,往高手指点。</p><p></p><p>另外,用format连接我知道怎么做,虽然省资源,但有个问题是如果连接需带入多个属性进来,则要建多个format,比较罗嗦,不能一步搞定,而且还可能不小心改变字段的类型和长度,慎用!</p>

[此贴子已经被作者于2008-3-16 10:44:15编辑过]

39
wxq1638 发表于 2008-3-16 00:01:00
0点的钟声敲响了,夜猫还不少。

40
半生回忆 发表于 2008-3-16 19:24:00
<p>小学生&nbsp; 学习中</p><p>二者的争论让我对SAS有了更深的了解 呵呵 </p><p>继续关注</p>

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 06:14