Entries Tagged '机器学习与数据挖掘' ↓

一款像模像样的数据挖掘软件—AlphaMiner

AlphaMiner  介绍一款免费的数据挖掘软件,就是左图所示的AlphaMiner,1.0版由香港大学电子商务研究所研制,现在它由该机构和哈尔滨工业大学(哈工大,叫全称怎么这么别扭)深圳研究生院联合成立的一个商务智能实验室共同开发维护,已经升级到2.0版。它自称是一个开源项目(的确开放源代码),但我现在看它在sourceforge的链接已经删掉,不知为什么。试着一句话介绍:

AlphaMiner是一款基于开源项目Weka和Xelopes的,跟主流数据挖掘平台如SAS Enterprise Miner、SPSS clementine、S-Plus Insightful Miner等拥有一样友好图形界面和工作流方式的,可以实施大多数常用数据挖掘算法的,免费的、可以定制中文界面的、像模像样的、开源的数据挖掘软件。

这里的关键词是“像模像样”,是跟上面提到的SAS Enterprise Miner、SPSS clementine、S-Plus Insightful Miner相比来说的,AlphaMiner小巧玲珑,安装文件(加上JRE)不到40M,图形界面、工作流方式,还有提供的众多数据挖掘算法,可谓麻雀虽小,五脏俱全,各方面真是像模像样,以下的特点都是来自2.0版:

  1. 图形界面,工作流方式,左边是带选择的节点,右边的大片空白就是工作簿,用来堆放从左边拖曳过来的各种节点,这样的工作环境跟SAS Enterprise Miner、SPSS clementine、S-Plus Insightful Miner等主流数据挖掘平台一模一样;
  2. 数据挖掘流程,遵循跟SPSS clementine一样的所谓CRISP工业标准(Cross Industry standard Process for Data Mining,CRISP-DM),即把一个数据挖掘项目的流程分为以下六个部分,体现在AlphaMiner界面左侧的选项就是Data Understanding、Data Preparation、Modeling、Evaluating和Evaluate:
    • 理解业务(business understanding)
    • 理解数据(data understanding)
    • 数据准备(data preparation)
    • 建模(modeling)
    • 评估(evaluation)
    • 实施(deployment)
  3. 算法,AlphaMiner提供包括分类、聚类和关联分析的共12种现成数据挖掘算法,其中,关联分析(Association)一种,聚类(Cluster)提供KMeans和WKMeans两种算法,分类(classification)算法有:
    • 决策树(Decision Tree)
    • 简单贝叶斯(Naive Bayes)
    • 序贯最小优化(Sequential Minimal Optimization,SMO)
    • 逻辑斯蒂回归(Logistic Regression)
    • 线性回归(Linear Regression)
    • 多层感知器(Multilayer Perception)
    • 径向基网络(RBFNetwork)
    • OneR,(以前是一个插件,用来生成规则)
    • WekaClassifier(以前是一个插件,用来调用Weka的分类器)

AlphaMiner2.0的下载地址在:http://bi.hitsz.edu.cn/AlphaMiner/index.htm

Technorati Tags: , , ,

最大熵模型:读书笔记

                                                            最大熵模型:读书笔记

                                                                    胡江堂,北京大学软件学院

1. 物理学的熵

2. 信息论的熵

3. 熵和主观概率(一个简单注释

4. 熵的性质

4.1. 当所有概率相等时,熵取得最大值

4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多

5. 最大熵原理:直觉讨论

6. 最大熵原理:一个手工例子

7. 最大熵原理:正式表述

8. 最大熵模型的训练:GIS算法

9. 最大熵模型:金融领域内的应用

参考文献

 

这篇读书笔记主要写了对熵的理解、对最大熵原则的理解,还有一个手工计算的例子。在处理一般化的最大熵模型时,我采用了我偏爱的连续随机变量形式,而不是一般有助于计算机理解的离散形式。连续而非离散的处理方式的一个好处就是,它能非常方便地推出最大熵模型的解是一个指数形式。如果使用离散形式,一样的结论,那符号就看着复杂多了。

所有的东西都来自篇末的参考资料。

1. 物理学的熵

熵是一个物理学概念,它是描述事物无序性的参数,熵越大则无序性越强。从宏观方面讲(根据热力学定律),一个体系的熵等于其可逆过程吸收或耗散的热量除以它的绝对温度;从微观讲,熵是大量微观粒子的位置和速度的分布概率的函数。自然界的一个基本规律就是熵递增原理,即,一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新的有序结构,这意味着自然界越变越无序。

2. 信息论的熵

在物理学中,熵是描述客观事物无序性的参数。信息论的开创者香农认为,信息(知识)是人们对事物了解的不确定性的消除或减少。他把不确定的程度称为信息熵。假设每种可能的状态clip_image002都有概率clip_image004,我们用关于被占据状态的未知信息来量化不确定性,这个信息熵clip_image006即为:

clip_image008

其中clip_image010是以2为底的对数,所以这个信息用位衡量。前面说过,在物理学的背景下,这个不确定性被称为熵(在通讯系统中,关于传输的实际信息的不确定性也被称为数据源的熵)。

扩展到连续情形。假设连续变量clip_image012的概率密度函数是clip_image014,与离散随机变量的熵的定义类似,信息熵的连续定义为:

clip_image016

上式clip_image018就是我们定义的随机变量clip_image012[1]的微分熵。当clip_image012[2]被解释为一个随机连续向量时,clip_image014[1]就是clip_image012[3]的联合概率密度函数。

3. 熵和主观概率(一个简单注释)

因为熵用概率表示,所以这涉及到主观概率。概率用于处理知识的缺乏(概率值为1表明对知识的完全掌握,这就不需要概率了),而一个人可能比另一个人有着更多的知识,所以两个观察者可能会使用不同的概率分布,也就是说,概率(以及所有基于概率的物理量)都是主观的。在现代的主流概率论教材中,都采用这种主观概率的处理方法。

4. 熵的性质

4.1. 当所有概率相等时,熵取得最大值

上面关于熵的公式有一个性质:假设可能状态的数量有限,当所有概率相等时,熵取得最大值。证明如下:

clip_image022 

在只有两个状态的例子中,要使熵最大,每个状态发生的概率都是1/2,如下图所示:

clip_image024

4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多

证明略,可以简要说明一下,也挺直观的。如果事件clip_image002[1]发生的概率为1,在这种情况下,事件clip_image002[2]发生就没有什么“惊奇”了,并且不传达任何“信息”,因为我们已经知道这“信息”是什么,没有任何的“不确定”;反之,如果事件clip_image002[3]发生的概率很小,这就有更大的“惊奇”和有“信息”了。这里,“不确定”、“惊奇”和“信息”是相关的,信息量与事件发生的概率成反比。

5. 最大熵原理:直觉讨论

最大熵原理是根据样本信息对某个未知分布做出推断的一种方法。日常生活中,很多事情的发生表现出一定的随机性,试验的结果往往是不确定的,而且也不知道这个随机现象所服从的概率分布,所有的只有一些试验样本或样本特征,统计学常常关心的一个问题,在这种情况下如何对分布作出一个合理的推断?最大熵采取的原则就是:保留全部的不确定性,将风险降到最小。在金融理论中,一个类似的教训是,为了降低风险,投资应该多样化,不要把所有的鸡蛋都放在一个篮子里。

吴军(2006)举了一个例子。对一个均匀的骰子,问它每个面朝上的概率分别是多少。所有人都会说是1/6。这种“猜测”当然是对的,因为对这个“一无所知”的色子,假定它每一个朝上概率均等是最安全的做法,你不应该假设它被做了手脚。从信息论的角度讲,就是保留了最大的不确定性,让熵达到最大(从投资的角度来看,这就是风险最小的做法)。但是,如果这个骰子被灌过铅,已知四点朝上的概率是1/3,在这种情况下,每个面朝上的概率是多少?当然,根据简单的条件概率计算,除去四点的概率是 1/3外,其余的概率都是 2/15。也就是说,除已知的条件(四点概率为 1/3)必须满足外,对其它各点的概率,我们仍然无从知道,也只好认为它们相等。这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。

回到物理学例子中。在涉及物理系统的情形中,一般要确定该系统可以存在的多种状态,需要了解约束下的所有参数。比如能量、电荷和其他与每个状态相关的物理量都假设为已知。为了完成这个任务常常需要量子力学。我们不假设在这个步骤系统处于特定状态;事实上我们假定我们不知道也不可能知道这一点,所以我们反而可以处理被占据的每个状态的概率。这样把概率当作应对知识缺乏的一种方法。我们很自然地想避免假定了比我们实际有的更多的知识,最大熵原理就是完成这个的方法。

这里可以总结出最大熵对待已知事物和未知事物的原则:承认已知事物(知识);对未知事物不做任何假设,没有任何偏见。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设(不做主观假设,这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。

6. 最大熵原理:一个手工例子

举个例子,一个快餐店提供3种食品:汉堡(B)、鸡肉(C)、鱼(F)。价格分别是1元、2元、3元。已知人们在这家店的平均消费是1.75元,求顾客购买这3种食品的概率。如果你假设一半人买鱼另一半人买鸡肉,那么根据熵公式,这不确定性就是1位(熵等于1)。但是这个假设很不合适,因为它超过了你所知道的事情。我们已知的信息是:

clip_image029

clip_image031

以及关于对概率分布的不确定性度量,熵:

clip_image033

对前两个约束,两个未知概率可以由第三个量来表示,可以得到:

clip_image035

clip_image037

把上式代入熵的表达式中,熵就可以用单个概率clip_image039来表示:

clip_image041对这个单

三个有名的决策树算法:CHAID、CART和C4.5

CHAID、CART和C4.5大概是决策树算法丛林中最有名,商业上运用也也最成功的算法了。CHAID (chi-squared automatic interaction detection,卡方自动交互检测)的前身是AID,主要特征是多向分叉,前向修剪,其标准如名所示,就是卡方检测;另外,CHAID只能处理类别型的输入变量,因此连续型的输入变量首先要进行离散处理。标准的CARTclassification and regression trees)又不一样,它只能进行二部分叉,后向修剪,分割标准用的是基尼系数(Gini Index);C4.5源自有名的ID3,它只能进行L型分叉,后向修剪,标准乃是基于信息论的“熵”(Entropy)。

数据挖掘——我们能从股市数据得出什么,以及一些算法

//一个备忘录了,写给我们金融信息系统项目小组的同学。没有列出参考文献,因为都是大白话。有些删节。

数据挖掘/机器学习大概处理以下几个问题:

  1. 分类 ,这是有很多非常成熟的算法,非常直观,按照一个分类属性,把样本分为不同的类别。
  2. 聚类 ,聚类与分类的差别在于,分类分析有一个分类属性作为输出,比如“好”、“坏”之类,但聚类没有。聚类分析探索各个样本间的内在关系,并按一定标准把它们“聚”在一块。按照有没有相应的输出分类属性,一个术语是,分类是有指导的学习,而聚类是无指导的学习;
  3. 关联分析,就是著名的购物篮分析,例子就是沃尔玛的啤酒和尿布,探索数据中各个属性之间的关系;
  4. 预测,也很直观了,有很多回归技术。

分别论述了。分类的算法有:

  1. 决策树,按照一定的标准(比如说信息论中的“熵”),把各个属性划到不同的树形节点中去。在股市数据中,比如,有好的企业和不好的企业(ST),这个算法提供类似“如果市盈率怎么样,则该企业怎么样怎么样”的结论,当然,实际分析中,结论的层次会很多。决策树的成功算法有C4.5、CHAID(这个就是冯老师说的威力无比的卡方自动搜索技术,昨天梁老师提到的最好的决策树算法就是它)、CART等等。C4.5有现成的代码;
  2. 人工神经网络,仿照人类神经元刺激-反应的学习模式,人工神经网络被一个环境(输入输出的组合)所激励,它的各种参数(那些权值和偏置量)进行调整作为响应。一般认为神经网络经常能发掘出数据中的非线性关系,而且抗干扰性较强。人工神经网络包括三种基本的模型,一是前馈网络,如多层感知机(我们学过相应的反向传播法BP),这里网络的输出直接根据网络的输入计算而来,不涉及到反馈;二是竞争网络,以Hamming网络为代表,它包括一个反馈层,并试图判定哪个标准向量最接近输入向量;三是以Hopfield网络为代表的递归网络,它利用输入向量对网络中的神经元进行初始化,然后不断迭代直至收敛;这里前馈网络的代码很好找到;
  3. 支持向量机(SVM,Support Vector Machine)源自统计学习理论,有着坚实的理论基础,它用训练实例的一个子集(支持向量)作为决策边界,然后建立一个线性判别函数来将各个类别分开。它相对与神经网络的一个优点是能发现目标函数的全局最优点,而采用贪心算法搜索假设空间的神经网络模型一般只能获得局部最有解;
  4. 最大熵法(MEM,Maximun Entropy Method),是基于信息论的一种方法,它用“熵”来表示信息的增益,在自然语言处理领域成就斐然。最大熵方法认为,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以称之为“最大熵法”。最大熵法在数学形式上很漂亮,但是实现起来比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。这个算法在数学上很漂亮,只是计算实现上比较复杂,但把它运用于金融领域的诱惑也比较大,比如说决定股票涨落的因素可能有几十甚至上百种,而最大熵方法恰恰能找到一个同时满足成千上万种不同条件的模型。

聚类的算法以K-均值为代表,它先是选择K个初始的质心,接着按就近原则将其他观测值向它凝聚,这样指派到每一个质心的点集称为一个簇。然后根据指派到簇的点,更新每个簇的质心,这样重复指派和更新,直到质心不再发生变化(即收敛)。这里“最近”的概念用的是欧几里德距离。在我们的股市数据中,如果我们不再事先指定哪些股票是好是坏(即没有输出变量),通过聚类分析也能把它们分类。

关联分析用来发现隐藏在大型数据集中令人感兴趣的联系,比如尿布和啤酒之间的关联,一种叫Apriori的算法可以实现,它根据变量及其赋值对整个数据集的覆盖程度来建立起两个或几个变量之间的联系。这个算法用在我们的股市数据中,可以帮我们找到几只单股之间的关联,这种关联可能没有道理。

决策树的构造——一个手工例子

这个数据集来自Mitchell的机器学习,叫做是否去打网球play-tennis,以下数据仍然是从带逗号分割的文本文件,复制到纪事本,把后缀直接改为.csv就可以拿Excel打开:

*play-tennis
data,其中6个变量依次为:编号、天气{Sunny、Overcast、Rain}、温度{热、冷、适中}、湿度{高、正常}、风力{强、弱}以及最
后是否去玩的决策{是、否}。一个建议是把这些数据导入Excel后,另复制一份去掉变量的数据到另外一个工作簿,即只保留14个观测值。这样可以方便地
使用Excel的排序功能,随时查看每个变量的取值到底有多少。*/

NO. , Outlook , Temperature , Humidity , Wind , Play
1 , Sunny , Hot ,
High , Weak , No
2 , Sunny , Hot , High , Strong , No
3 , Overcast , Hot
, High , Weak , Yes
4 , Rain , Mild , High , Weak , Yes
5 , Rain , Cool
, Normal , Weak , Yes
6 , Rain , Cool , Normal , Strong , No
7 ,
Overcast , Cool , Normal , Strong , Yes
8 , Sunny , Mild , High , Weak , No

9 , Sunny , Cool , Normal , Weak , Yes
10 , Rain , Mild , Normal , Weak
, Yes
11 , Sunny , Mild , Normal , Strong , Yes
12 , Overcast , Mild ,
High , Strong , Yes
13 , Overcast , Hot , Normal , Weak , Yes
14 , Rain
, Mild , High , Strong , No

这里我们先不讨论算法(这里用的是ID3/C4.5),把一棵决策树建立起来再说。我们要建立的决策树的形式类似于“如果天气怎么样,去
玩;否则,怎么着怎么着”的树形分叉。那么问题是用哪个属性(即变量,如天气、温度、湿度和风力)最适合充当这颗树的根节点,在它上面没有其他节点,其他
的属性都是它的后续节点。借用信息论的概念,我们用一个统计量,“信息增益”(Information
Gain)来衡量一个属性区分以上数据样本的能力。信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁,比如说一棵树可以这么读成,如果风力
弱,就去玩;风力强,再按天气、温度等分情况讨论,此时用风力作为这棵树的根节点就很有价值。如果说,风力弱,再又天气晴朗,就去玩;如果风力强,再又怎
么怎么分情况讨论,这棵树相比就不够简洁了。计算信息增益的公式需要用到“熵”(Entropy)。名词越来越多,让我们通过手工计算记住它们的计算方
法,把Excel打开:

1 计算熵

我们检查的属性是是否出去玩。用Excel对上面数据的play变量的各个取值排个序(这个工作簿里把“play”这个词去掉),一共是14条记录,你能数出取值为yes的记录有9个,取值为no的有5个,我们说这个样本里有9个正例,5
个负例,记为S(9+,5-),S是样本的意思(Sample)。这里熵记为Entropy(S),计算公式为:

Entropy(S)= -(9/14)*log(9/14)-(5/14)*log(5/14)

解释一下,9/14是正例的个数与总记录之比,同样5/14是负例占总记录的比例。log(.)是以2为底的对数(我们知道以e为底的对数称为自然对数,记为ln(.),lg(.)表示以10为底的对数
)。在Excel里我们可以随便找一个空白的单元格,键入以下公式即得0.940:

=-(9/14)*LOG(9/14,2)-(5/14)*LOG(5/14,2)

这里LOG(9/14,2)中的“2”表示以2为底。类似地,如果你习惯用Matlab做数学运算本,公式为

-(9/14)*log2(9/14)-(5/14)*log2(5/14)

其中“2”的含义与上同。

总结:在这个例子中,我们的输出属性(我们要检查的属性)“play”只有两个取值,同样地,如果输出属性的取值大于2,公式是对成的,一样的形式,连加就是,找到各个取值的个数,求出各自的比例。如果样本具有二元输出属性,其熵的公式为

Entropy(S)
=-(p+)*log(p+)-(p-)*log(p-)
其中,p+、p-分别为正例和负例占总记录的比例。输出属性取值大于2的情况,公式是对称的。

2 分别以Wind、Humidity、Outlook和Temperature作为根节点,计算其信息增益

可以数得,属性Wind中取值为Weak的记录有Normal的记录有8条,其中正例6个,负例2个;同样,取值为Strong的记录6个,正例负例个3个。我们可以计算相应的熵为:

Entropy(Weak)=-(6/8)*log(6/8)-(2/8)*log(2/8)=0.811

Entropy(Strong)=-(3/6)*log(3/6)-(3/6)*log(3/6)=1.0

现在就可以计算出相应的信息增益了:

Gain(Wind)=Entropy(S)-(8/14)*Entropy(Weak)-(6/14)*Entropy(Strong)=0.940-(8/14)*0.811-(6/14)*1.0=0.048

这个公式的奥秘在于,8/14是属性Wind取值为Weak的个数占总记录的比例,同样6/14是其取值为Strong的记录个数与总记录数之比。

同理,如果以Humidity作为根节点:

Entropy(High)=0.985 ; Entropy(Normal)=0.592

Gain(Humidity)=0.940-(7/14)*Entropy(High)-(7/14)*Entropy(Normal)=0.151

以Outlook作为根节点:

Entropy(Sunny)=0.971 ; Entropy(Overcast)=0.0 ; Entropy(Rain)=0.971

Gain(Outlook)=0.940-(5/14)*Entropy(Sunny)-(4/14)*Entropy(Overcast)-(5/14)*Entropy(Rain)=0.247

以Temperature作为根节点:

Entropy(Cool)=0.811 ; Entropy(Hot)=1.0 ; Entropy(Mild)=0.918

Gain(Temperature)=0.940-(4/14)*Entropy(Cool)-(4/14)*Entropy(Hot)-(6/14)*Entropy(Mild)=0.029

这样我们就得到了以上四个属性相应的信息增益值:

Gain(Wind)=0.048 ;Gain(Humidity)=0.151 ; Gain(Outlook)=0.247
;Gain(Temperature)=0.029

最后按照信息增益最大的原则选Outlook为根节点。子节点重复上面的步骤。这颗树可以是这样的,它读起来就跟你认为的那样:

参考资料:

1.王厚峰,“机器学习‘课程讲义,2007年春季学期,北京大学软件与微电子学院

2.Mitchell,《机器学习》,曾华军等译,北京:机械工业出版社,2003

几个有名的数据挖掘与机器学习的练习数据集(一)

都是公开数据集,都能从网上得到。一些来自软件的自带数据集,一些来自网上的公开数据集,还有一些就是从论文中直接复制过来。我的想法是好东西应该多多覆盖,不嫌重复。

第一个来自Witten的《数据挖掘:实用机器学习技术》的隐性眼镜数据(the Contact Lens data),以下的数据你Copy过去,保存数据格式为.txt,就是一个带逗号分割的文本文件啦,可以直接用Excel打开(下面的东西本来就是把Excel文件保存为带逗号分割的文本文件):

/*隐性眼镜数据集(the Contact Lens data),这组数据是验光师根据每个病人的情况作出到底使用哪种隐性眼镜的诊断。其中5个变量,
1.Age:年龄,分为老年( Presbyopic,老花眼 )、中年(Pre-presbyopic)和青年(Young);
2.SpectaclePrescription:就是Spectacle Prescription,视力诊断,取值有近视(Myope)和远视(Hypermetrope);
3.Astigmatism,是否散光;
4.TearProductionRate,Tear Production Rate,泪流量,取值为正常(Normal)和缺乏(Reduced);
5.最后是推荐的镜片,RecommendedLenses,Recommended Lenses,软的、硬的或者不能佩戴隐性眼镜。*/

Age , SpectaclePrescription , Astigmatism , TearProductionRate , RecommendedLenses
Young , Myope , No , Reduced , None
Young , Myope , No , Normal , Soft
Young , Myope , Yes , Reduced , None
Young , Myope , Yes , Normal , Hard
Young , Hypermetrope , No , Reduced , None
Young , Hypermetrope , No , Normal , Soft
Young , Hypermetrope , Yes , Reduced , None
Young , Hypermetrope , Yes , Normal , hard
Pre-presbyopic , Myope , No , Reduced , None
Pre-presbyopic , Myope , No , Normal , Soft
Pre-presbyopic , Myope , Yes , Reduced , None
Pre-presbyopic , Myope , Yes , Normal , Hard
Pre-presbyopic , Hypermetrope , No , Reduced , None
Pre-presbyopic , Hypermetrope , No , Normal , Soft
Pre-presbyopic , Hypermetrope , Yes , Reduced , None
Pre-presbyopic , Hypermetrope , Yes , Normal , None
Presbyopic , Myope , No , Reduced , None
Presbyopic , Myope , No , Normal , None
Presbyopic , Myope , Yes , Reduced , None
Presbyopic , Myope , Yes , Normal , Hard
Presbyopic , Hypermetrope , No , Reduced , None
Presbyopic , Hypermetrope , No , Normal , Soft
Presbyopic , Hypermetrope , Yes , Reduced , None
Presbyopic , Hypermetrope , Yes , Normal , None

数据挖掘入门书:Roiger&Geatz《数据挖掘教程》清华版2003

开学用来入门的数据挖掘教科书,包括完整的数据挖掘流程的介绍、大多数流行数据挖掘技术的展示以及一个基于EXcel的数据挖掘工具iDA的详细展示,其实它的英文名能突出它的入门性质:

Data Mining A
Tutorial-Based Primer, by Richard J. Roiger, Michael W. Geatz,
Addison-Wesley,2003
《数据挖掘教程》,翁敬农译,清华大学出版社,2003,45.00元(附光盘一张,包括书中的数据、讲义以及iDA学生版)

更多的资料,

—在作者的主页上有这本书更多的数据集、讲义、订正、iDA下载以及额外的在DOS下运行的小软件Decision Tree和Association Rule,一个是做决策树,另一个做关联分析。

这本书在出版社的主页,有这本书的两个样章:第二章关于数据挖掘策略及相关技术的讨论,第四章是关于iDA应用的详细介绍,感兴趣可以对照目录了解一下这书。

iDA软件的主页,也可以下载它的限制版,应付本书的大多例子没问题。这里还有该软件的安装使用说明。诡异的是,开学初我下过能使,自从重装系统后就没法用了。现在我改用其他,也就不在意了。当然,那东西作为Excel的一个小插件出现,非常好使。

其实学东西,现在我的感受是,永远不是没有资料,缺的只是扎进一本书里。