1. SAS是最流行的数据分析类语言
我们看一个编程语言4月份的排名,来自TIOBE。TIOBE编程语言排名是各种程序语言流行程度的指标,每月更新。它参考全球范围内的技术工程师、培训师以及第三方厂商的意见,通过google、MSN、Yahoo!等常用的搜索引擎搜索结果来计算每种编程语言的流行指数。这个排行榜是程序员查看自己掌握的编程技能是否过时的权威参考之一。具体的评分标准,可以参阅其官分评分文档。
SAS是工业界最流行的统计分析语言。以前,号称有工业用途的三个统计软件是SAS、S-plus和SPSS,它们都是二十世纪七十年代问世的。S-plus与R同源,根正苗红,前身是上世纪七十年代末诞生于AT&T的贝尔实验室(Bell Labs)的S语言,八十年代末由StatSci公司运作,九十年代初转主MathSoft,2001年公司改组,改名叫Insightful,前年(2008),Insightful又被BI产商Tibco收购,从此,江湖上再也听不到S-plus的名号,它被融入Tibco的一个叫TIBCO Spotfire的分析平台。
再说SPSS,它的历史最早,1968年就有第一个发行版,由当时斯坦福大学的研究生Norman Nie等人发明,原意是Statistical Package for the Social Sciences。1975年SPSS公司成立,1993年上市。2009年,SPSS公司被IBM以12亿美元收购。现在,这家公司称作”SPSS: An IBM Company”,那个软件,叫做PASW (Predictive Analytics SoftWare) 。我们默认的那个SPSS也已经不复存在。
2009年,SAS公司的全球收入是23亿美元,它创立于1976年,比SPSS公司还晚一年。SAS软件1972年就有一个较稳定的发行版。随着BO等BI公司、SPSS等数据分析工具提供商一个个被IT巨头收购,SAS现在是全球最大的独立的BI/分析厂商,迄今没有上市。
2. R和SAS
这里要单独说下R。R现在被认为是SAS的一个潜在竞争者。SAS公司在细分市场上的主要竞争对手是SAP、Oracle、IBM、Microsoft、Teradata、SunGard、Unica等IT厂商。R对SAS的(潜在)威胁,不是体现在软件本身,而是体现在用户尤其是高校用户上。前面提到,R现在是学院里的标准统计语言。随便揪一个统计系的学生问:“为什么学R”。答:“因为课程项目用。”“为什么课程项目用?”答:“因为老师用。”或者“因为谢益辉在用。”
那我们再问R的传道者像谢益辉,“为什么用R?”答:“因为R开源”、“因为R统计功能强大,算法日新月异”、“因为某某大佬用R”等等。——通常,你不会因为,比如“R比SAS好”便去学R,或者“SAS比R好”便去学SAS。但是,假如一个人的时间精力只允许他/她学一门语言,那么,由于学院派益辉同学等的大声疾呼,R的确抢走了SAS的很多高校用户。但如果一个在校生还有额外的时间精力,而且他的志向不限于学院,那么,他或许应该再听听工业界的呼吁。
前面提到“算法日新月异”是R的一个优势,这对学院研究颇有吸引力,但工业界相对就保守些,对新算法的需求就小些。——平常听起来“保守”似乎是一个不太积极向上的词,但想想,一个法官应该是保守的,在统计学的假设检验里,遵守的其实也是一个保守原则。举个例子,在学院研究中,Bayesian(贝叶斯分析)在概念上已经不是那么新潮了,但在医药行业(就是那个由保守的药监局如FDA监管的行业),现在用的还是传统的Frequentist方法(参见ICH E9,Statistical Principles for Clinical Trials)。学院里的优势不必然是工业界的优势,那么你为什么不额外再学一门SAS,这个工业界的金标准?以前说过,R的不足刚好是SAS所长,反之亦然。
又,有在校生说,R免费,而SAS是商业软件,故学R,——这是一个不成熟的、人云亦云的说法。你在学校实验室能免费学到SAS,以后你的东家自然会为SAS软件买单。费用不是你应该考虑的问题。
3. SAS可以作为一门职业
从实际的角度来说,有一个工种就叫做SAS程序员(SAS Programer, 或叫做Statistical SAS Programmer、Statistical Analyst)。在全球最大的求职网站www.monster.com,分别以SAS等作为skill关键词,搜索结果如下(测试时间:2010-04-13,你现在看到的会有细微的差别):
1645 SAS jobs
577 Matlab jobs
329 SPSS jobs
87 Fortran jobs
59 STATA jobs
59 Maple jobs
24 Mathematica jobs
这是英语世界的大致情况。说说我们身边的机会。SAS使用者大多集中在医药、金融等行业。现在国际上的大药厂(辉瑞、拜耳、诺华,……)纷纷在中国开研发中心,对生物统计师(Biostatistician,包括统计师和程序员。程序员就是SAS程序员,而SAS编程也是统计师的基本要求之一)的需求渐长。在金融领域,拿我稍熟悉的信用评分领域来讲,熟悉SAS和数据挖掘的人才也很短缺。另外,广泛的机会还能在国内如火如荼的互联网公司和通信行业找到。
其实,即使不把SAS作为一门职业,对一份分析类的工作,你简历中出现SAS也会比出现其他类似的东西(Excel、……)更能吸引雇主的眼球。SAS被普遍认为是一种重量级的工具。 对于统计系的学生,我知道R是你的首选。你需要再学习一门SAS的理由是,SAS是工业界的流行语言。 对社会学、经济学等社科类的专业学生来说,你们需要学习SAS,还有一个额外的理由,SAS会让你的背景显得更硬朗一些,大白话就是说,能让文科气息稍微淡一些。 对IT类学生来说,学习SAS不会占用你太多时间,然后在就业市场,你的选择会宽广很多http://cos.name/2010/04/think-sas-1/