楼主: 殷红已
2142 6

[学习分享] Think SAS(一) [推广有奖]

  • 0关注
  • 9粉丝

等待验证会员

大专生

3%

还不是VIP/贵宾

-

威望
0
论坛币
129 个
通用积分
0
学术水平
18 点
热心指数
24 点
信用等级
18 点
经验
617 点
帖子
19
精华
0
在线时间
20 小时
注册时间
2014-1-22
最后登录
2017-1-5

楼主
殷红已 发表于 2014-5-30 16:36:37 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
一个学习笔记系列

为什么你应该学Sas?本文不想卷入SAS与R,或者与SPSS、S-Plus、Matlab等统计软件孰优孰劣的争论中去,我是说,作为一个有志于投身工业界的统计分析人员,你为什么应该把SAS纳入你的分析工具箱?这会是一篇动员贴,尤其是对广大对数据分析感兴趣的在校生。在默认统计编程语言是R的“统计之都”,我需要拿上面这幅图来吸引眼球:学SAS吧。

R是好东西,不只是在COS,现在全世界的统计系和统计学生当中,R是主导性的学术语言。但不妙的是,国内高校学生中,学SAS的明显少了,医药、 金融等行业经常苦于招不到合适的SAS程序员。在统计分析领域,SAS是主导性的工业语言,它与R,不应该是此消彼长的关系。工业界与学院的隔膜,现在我 感觉是非常明显。下面讲的就是,关于SAS,我们在学院可能不太关注的事实。

001eec69ad5d1019a8fc1b

0. SAS是什么?

这是一个问题,SAS已经不是你所想象的那个样子。作为一家年收入超过20亿美元的、全球最大的独立BI/分析厂商,SAS就是那家由Dr. Jim Goodnight领导的私人公司。作为一个庞大的软件系统,以下只是SAS系统的一个不完整、不系统的介绍:

1.传统SAS(编程驱动)

1-1 基础模块(Base SAS):包括类似于PL/L的第四代 编程语言data steps、SQL、ODS、XML Engine、Macro以及大量的内置函数(支持Perl 正则表达式)和过程步(procedures)等。对一个SAS程序员来说,这个BASE模块几乎就是全部(说学SAS,就是先学这个,这不需要统计背景 或者计算机背景)。又,狭义的SAS Base仅指data steps。

1-2 数据存取模块(SAS/ACCESS):支持大量的PC文件(除文本文件外,还包括excel、SPSS的.sav、Stata的.dta等等)以及所有主流的关系数据库及ERP系统(Oracle、SAP、SQL Server、DB2、MySQL等等)

1-3 作图模块(SAS/GRAPH):SAS作图功能强大,只是模样够土。新版SAS 9.2在这块有不少让人兴奋的改进,比如支持ODS、TrueColor、ActiveX、SVG(Scalable Vector Graphics)等,另外还加了一个graph editor,新潮不少。

1-4 统计分析模块(SAS/STAT ) :包括回归模型、方差分析模型、混合模型、贝叶斯分析、分类数据分析、多元分析(主成分和因子分析等)、判别分析、聚类分析、生存分析、非参数分析等,多是我不熟悉的领域,只管罗列。有个Stat Studio支持R。

1-5 时间序列与计量经济学模块(SAS/ETS ):同上,X11、X12、ARIMA、PANEL、AUTOREG、……。又,做资产组合等投资分析也是在这个模块。

1-6 矩阵运算模块(SAS/IML) 1-7 运筹学模块(SAS/OR) 1-8 地理信息系统模块(SAS/GIS) …… 以上部分是大部分SAS高校用户能接触到的东西,主要用命令行实现功能。下面则是有GUI的客户端工具,一般都用它们作计算引擎。

2. 客户端工具

2-1 元数据管理(SAS Management Console,SMC):元数据(metadata)就是关于数据的数据。最简单的,一个数据集的变量属性就是metadata。SMC是SAS产品元数据管理的统一中心。

2-2 ETL工具(SAS Data Integration Studio):ETL就是数据抽取(Extract)、转换(Transform)和加载(Load)。完成企业数据处理的工具还有SAS OLAP Cube Studio、SAS Information Map Studio等。

2-3 数据挖掘模块(SAS Enterprise Miner,EM) :SAS的重磅产品之一。5以上是Java客户端版本,用户体验增进不少。

2-4 综合分析工具包(SAS Enterprise Guide,EG): 有完善的GUI界面,完成SAS从数据整合、分析到报表的一系列功能。EG与JMP,是SAS公司的两个明星产品。 ……

3. 其他

3-1 统计探索软件包JMP:这是一个独立于Base SAS的软件,由SAS公司的二把手John Sall主管,界面很炫,功能很强,让业务人员爱不释手那种。JMP9支持R。 ……

以及,由以上SAS产品整合打包、再加上业务规则支持形成的各种SAS行业解决方案,广泛运用于金融、通信、能源、ZF、医药、保险、制造、零售等 各个行业。 SAS不仅仅是一款统计软件,它的官方定位是“商务分析和商务智能软件”(Business Analytics and Business Intelligence Software, BA & BI)。现在我们的重点放回SAS 1.1 即Base SAS上来。

1. SAS是最流行的数据分析类语言

我们看一个编程语言4月份的排名,来自TIOBE。TIOBE编 程语言排名是各种程序语言流行程度的指标,每月更新。它参考全球范围内的技术工程师、培训师以及第三方厂商的意见,通过google、MSN、 Yahoo!等常用的搜索引擎搜索结果来计算每种编程语言的流行指数。这个排行榜是程序员查看自己掌握的编程技能是否过时的权威参考之一。具体的评分标 准,可以参阅其官分评分文档。现在最新的排行榜是(前20名,2010年4月):

rank_201004

这个TIOBE排 名,有它自身的局限。比如,Google新推出的Go,一时广受追捧,4月的排名噌就上去了,但这并不能代表它的实际流行程度。但长期看来,模式还是很明 显,比如,通用型的编程语言C/C++、Java、Perl、Python等一直占据这个榜单的榜首,而SAS,则一直是数据分析类语言的龙头,与 Oracle数据库内置的PL/SQL语言不分上下。在2010年4月这份榜单中,我们可以把常见的统计分析类语言(关于“统计分析类语言”,这里表述不够精确,比如Matlab,可以作为统计分析工具用,但更多用在科学计算方面。得其大意了。)单独摘出来做一份表单(Maple、Mathematica、R和SPSS由于在榜单上差异不大,故按字母顺序排序):

统计分析语言        TIOBE排名2010年4月
1        SAS        13
2        Matlab        18
3        Fortran        34
4        Maple        #51 to #100
5        Mathematica        #51 to #100
6        R        #51 to #100
7        SPSS        #51 to #100
SAS是工业界最流行的统计分析语言。以前,号称有工业用途的三个统计软件是SAS、S-plus和SPSS,它们都是二十世纪七十年代问世的。S-plus与R同源,根正苗红,前身是上世纪七十年代末诞生于AT&T的贝尔实验室(Bell Labs)的S语言,八十年代末由StatSci公司运作,九十年代初转主MathSoft,2001年公司改组,改名叫Insightful,前年(2008),Insightful又被BI产商Tibco收购,从此,江湖上再也听不到S-plus的名号,它被融入Tibco的一个叫TIBCO Spotfire的分析平台。

再说SPSS,它的历史最早,1968年就有第一个发行版,由当时斯坦福大学的研究生Norman Nie等人发明,原意是Statistical Package for the Social Sciences。1975年SPSS公司成立,1993年上市。2009年,SPSS公司被IBM以12亿美元收购。现在,这家公司称作”SPSS: An IBM Company”,那个软件,叫做PASW (Predictive Analytics SoftWare) 。我们默认的那个SPSS也已经不复存在。

2009年,SAS公司的全球收入是23亿美元,它创立于1976年,比SPSS公司还晚一年。SAS软件1972年就有一个较稳定的发行版。随着BO等BI公司、SPSS等数据分析工具提供商一个个被IT巨头收购,SAS现在是全球最大的独立的BI/分析厂商,迄今没有上市。

反响好就继续发,反响不好就不发了哈。
着急往下看的,可以来这边哈http://www.ppvke.com/
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:think Thin Intelligence mathematica Statistical 编程语言 全世界 工具箱 软件 统计

沙发
殷红已 发表于 2014-5-30 16:37:28
想看下边的可以来这边看,http://www.ppvke.com/

藤椅
ryuuzt 发表于 2014-6-1 10:15:46
喜欢。接着发吧。等。

板凳
ryuuzt 发表于 2014-6-1 10:23:46
你给的那个网站里面没有找到后续的部分。

报纸
mycpcw 发表于 2014-6-1 21:24:08
接着发吧

地板
ccgcs 发表于 2014-6-2 00:18:09
关注。。。。

7
木子星 发表于 2014-6-2 09:15:42
其实我一直都在用SAS和R, SAS是在学校里自学的。
R是工作后自学的。
很多时候我很难分辨出两者的差距,只要我觉得怎么好处理就用什么处理。
excel也是常用必备之一。
这篇帖子写的挺好的,对于我不太有全局观的人来说,看了可能会慢慢有所体会。
谢谢楼主。希望你继续发帖。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-20 15:46