技术博客重新开张

把以前在space写的文字都导入到这个新博客里了。

这新得白花花扎眼的一年,还想多写些关于SAS程序员本身的文字,关于这个职业,它依托的行业环境等等。SAS程序员在国内还不是一个很兴盛的职业。

还会有关于SAS本身的文字,关于SAS语言,SAS公司,关于它的创始人等等。最近我对SAS的创始人Tony Barr比较感兴趣。

技术本身,这个跟饭碗相关,除了SAS技术,很多笔墨可能会停留在CDISC上面。当然还会有自个兴之所至的其他文字,才年初呢,啥都没定。作为跟“统计之都”的约定,所有跟统计相关的文字,我会首先发布到“统计之都”,然后在自个的博客做个备份:

http://cos.name/author/hujiangtang/

通告

我的朋友,这段日子我换了个东家,技术路线有所倚重,这个(所谓)技术博客要停止更新了。这期间如果还有些数据挖掘跟应用统计方面的文章,会发布在“统计之都”(cos)上面:

http://cos.name/author/hujiangtang/

有网友说SAS爱好者,“或多或少、有意无意”都有光顾过这个博客。我从文科转入软件工程,以SAS起家,涉足数据挖掘与金融计算,更新不定,主题也不够专注,想想是比较惭愧。喜的是通过这些记录,大致能看到自己的用心所在,同时结交得许多志同道合的朋友,很多场合见面,就没有生疏之感。我现在一家药厂做SAS程序员,多跟临床试验打交道,想先沉淀一段日子再说。

说,技术或有转型,生活还是平稳如初。大伙感兴趣的,不妨先去我的生活博客转转:

http://li-and-jiang.com/blog/

RSS订阅地址是:

http://li-and-jiang.com/blog/feed/

想除了技术,我们还一定有许多聊得开的东西。再会。

Free Machine Learning Courses (Stanford) in YouTube

FYI:
 
http://www.youtube.com/view_play_list?p=A89DCFA6ADACE599

分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain

书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:

  1. 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
  2. 分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

*更多,见

http://cos.name/2009/02/measure-classification-model-performance-lift-gain/

del.icio.us Tags: ,,,,,,,,,,,

fyi: 数据挖掘软件大评比

去年年底(2008年11月),德国一家技术咨询公司,mayato,发布了一篇数据挖掘挖掘软件的评估报告,考察了以下12种产品:
 
传统的数据挖掘套件(Classic suites):
SAS Enterprise Miner
5.3
SPSS Clementine 12
 
开源数据挖掘软件(Open Source):
RapidMiner 4.2
KNIME
1.3.5
Weka 3.4.13
 
自动化数据挖掘软件(Self-Acting):
KXEN Analytic Framework
4.04
 
专门化的数据挖掘软件(Specialized):
Viscovery SOMiner
5.0
prudsys Discovery 5.5 / Basket Analyzer 5.2
Bissantz Delta Master
5.3.6
 
BI产品内置的数据挖掘软件(BI Vendors):
SAP NetWear 7.0 Data Mining
Workbench
Oracle 11g Data Mining
Microsoft SQL Server 2005 Analysis
Services
 
最近数据挖掘市场呈现出多元化的态势,除了传统的数据挖掘厂商SAS、SPSS的产品外,又有各种专有用途的数据挖掘软件,加上开源软件和BI产商提供的数据挖掘功能,这个市场看着是红红火火,给各种层次的用户提供了灵活的选择空间。mayato这篇报告的题目就叫做
Data
Mining Software 2009: Successful Analyses at Affordable Prices

(November 2008)。
 
可惜mayato这次的评估不够深入,所用的标准也嫌太过粗糙。在对Enterprise Miner (SAS),
Rapidminer (Rapid-I), Analytic Framework (KXEN), and NetWeaver Data Mining
Workbench (SAP)这四种产品进行了所谓thoroughly的评估后,它的结果是,Analytic Framework
(KXEN)综合排名第一,Enterprise Miner (SAS)紧接其后,然后是SAP NetWeaver Data Mining
Workbench和Rapidminer。
 
这次KXEN排名第一,我们并不感到吃惊(mayato是KXEN的合作伙伴)。不过,KXEN处理数据的速度的确非常值得称道。KXEN号称自动化数据挖掘软件(Self-Acting),客户定制调优的空间比较小,在默认选项下,其他软件在运行速度上就吃亏不少了。最后提一下,这次评估,KXEN在速度上占优,而SAS在性能上最为突出。
 
总的来说,这份评估过于简单,只能作为参考。不过它所展现的(以及遗漏的)数据挖掘软件市场,还是让人比较兴奋的(这次评估,当然有非常多的遗漏,如重要的Teradata
Warehouse Miner、IBM的DB2 Intelligence
Miner、Angoss、Unica等)。

Basel II on Incremental Risk Charge(IRC): Quick Links

  1. Basel Committee on Banking
    Supervision(Jan, 2009). Guidelines for computing capital for incremental
    default risk in the trading book. Consultative document.
    January.
  2. IRC
    Comments
    by RiskMetrics

心酸之路——S-Plus(被)并购大事记

0. 史前史:S语言(见John
Chambers
 
1976-1980,诞生于AT&T的贝尔实验室(Bell Labs)
 
,贝尔实验室也是命途多舛。这个时候它还是AT&T门下。后来AT&T遭分拆,朗讯(Lucent)分立出来,接手了贝尔。再后来,阿尔卡特(Alcatel)收购朗讯,贝尔就成了Alcatel-Lucent
Bell Labs,不提。
 
1. StatSci
 
1987-1988年,位于西雅图的华盛顿大学的统计学教授,Douglas Martin,创办Statistical
Sciences公司(StatSci),商业版的S软件面世(当时还不叫S-Plus)。
 
2. MathSoft
 
1993-1994,StatSci获得S语言的特许许可证(exclusive
license),并和MathSoft公司(创立于1984年)合并,成为其中的一个数据分析部门,Data Analysis Products Division
(DAPD)。
 
3. Insightful
 
2001年,Mathsoft把它下属的一个部门,Engineering and Education Products
Division
(EEPD),卖给这个部门经理,自己改名为Insightful,继续从事S-Plus的研发和销售。2002年,Insightful从贝尔实验室买下了S语言的所有权
 
,以后这个Engineering and
Education公司就叫MathSoft了,有一个在工程界很有名的科学计算软件,MathCad。2006年,Mathsoft公司卖给了PTC(Parametric Technology Corporation)。
 
4. Tibco
 
2008年,Tibco收购Insightful

太史公曰:S-Plus系出名门,产品做得也不赖,到现在居然潦倒如此,不但几易其主,还有伤主之嫌(但愿S-plus和接手它的公司能够走出历史的怪圈)。在同门,声势比不过R,在商业软件领域,又远远被SAS、SPSS甩开,甚至想跟Stata一样独善其身而不得,噫。

FYI: 用SAS/Graph做仪表盘(Dashboard)

dashboard

以前提到过,SAS一个员工做了一份给圣诞老人用的dashboard,在YouTube也能找到。最近Support.sas.com公布了一批Dashboard示例,比较有意思,不妨一看:

http://support.sas.com/kb/26/134.html

具体的:

  • Slider chart dashboard:
  • Bullet graph indicator:
  • Bullet graph dashboard:
  • Dial meter indicator:
  • Dial meter dashboard:
  • Bar chart indicator:
  • Bar chart dashboard:
  • Telesales dashboard:
  • Web marketing analysis dashboard:
  • del.icio.us Tags: ,,

    R与SAS之争:一个导读

    现在R与SAS社区里,最热闹的大概是源于《纽约时报》的一篇文章而引发的R与SAS之争了。

    2009年1月7号,《纽约时报》科技版登了一篇注定要引起四方瞩目的文章, Data Analysts Captivated by R’s Power(1月6号就有网络版),作者是该报的记者Ashlee Vance。这大概是开源统计软件包R,自1996年诞生以来,第一次出现在公众视野,而且是出现在《纽约时报》这样的主流媒体。这篇文章里有一句,让R社区和SAS社区都颇为兴奋,而且有很多私人博客也积极跟进:

    The popularity of R at universities could threaten SAS Institute.

    R软件的兴起,可能会威胁到SAS公司在数据分析领域的地位。

    报道中有对SAS公司一位市场总监Anee Milley的采访。Anee Milley的一句回应也注定要引来不少争议(甚至是公关危机):

    We have customers who build engines for aircraft. I am happy they are not using freeware when I get on a jet.

    我们有一些客户,为整机制造引擎。当我乘机时,很高兴他们没有使用免费软件(来设计引擎)。

    1月7号中午,就有用户在全球最主要的SAS论坛SAS-L发贴,提醒大家注意这篇报道。目前,这个帖子的跟贴不断,是目前SAS-L中最火的帖子,其中有不少R软件的支持者发言。SAS-L的大多活跃用户都是一些SAS老手,用SAS几十年,在最近的工作中意识到R的好处,所以对SAS与R的融合比较感兴趣。

    更多,请见“统计之都”:

    http://cos.name/2009/01/r-sas/

    del.icio.us Tags: ,,,,

    SAS金融函数(1):期权定价(new in SAS9.2 Base)

    以前贴过一份SAS9.1 Base的金融函数(23个。SAS9.1/ETS还有9个),惜乎没有展开来讲。现在SAS9.2 Base新增了一些有意思的金融函数(还有一些调整,比如,SAS9.1/ETS那9个金融函数都整合到SAS9.2 Base中去了),正好可以慢慢道来,从新增的期权定价函数开始(以前这些函数在SAS的风险管理软件Risk Dimension里面)。

    SAS9.2 Base新增的这些定价函数(8个)都是计算欧式期权价格的,对看涨(call)期权、看跌期权(put)以及不同的期权类型(股票期权、期货期权、货币期权、交换期权),分别提供了以下四种模型:

    Black-Scholes model,传统的股票期权定价模型,见Fischer Black and Myron Scholes (1973)
    Black model,Black-Scholes model的扩展,针对期货期权,见Fischer Black(1976),所以该模型又称作Black-76
    Garman-Kohlhagen model,外汇期权定价模型,见Mark Garman and Steven Kohlhagen(1983)
    Margrabe model,交换期权定价模型,见William Margrabe(1978)

    SAS9.2期权定价函数一览:

        Model,定价模型    Underlying,标的物     函数(Call,看涨)     函数( Put,看跌)
    Black model Futures,期货 BLACKCLPRC BLACKPTPRC
    Black-Scholes model Stock,股票 BLKSHCLPRC BLKSHPTPRC
    Garman-Kohlhagen model Currency,货币 GARKHCLPRC GARKHPTPRC
    Margrabe model Exchange,资产交换 MARGRCLPRC MARGRPTPRC

    具体用法,见SAS9.2的在线帮助文档,Functions and CALL Routines by Category: Financial
    http://support.sas.com/documentation/cdl/en/lrdict/59540/HTML/default/a000245860.htm

    推荐一个网站,可以比较各种不同的期权定价模型:http://www.montegodata.co.uk/

    下期预告:一个通吃的金融函数,Finance(.)

    一个孤零零的金融函数,能够做52种(是52种!)不同的金融计算,前面提到的SAS9.1/ETS那9个金融函数就是被它给硬生生消化掉了,……

    del.icio.us Tags: ,,,,,,,,,,,,,,,,,,,,,,,,,,