早上读书,读到了决策树。现在自己回想一下决策树相关的知识点。
- 是什么: 经常用来做分类处理的一种算法
 - 为什么: 决策树通过制定一系列的规则来判断物品是否属于某个范围,分类特征的划分和选取对决策树分类效果起到了至关重要的作用
 - 怎么做: 
- 收集数据
 - 准备数据,必须要将数据离散化,否则无法使用决策树来进行分类操作
 - 分析数据,构造一颗完整的决策树,通过自查,确保其符合预期
 - 训练算法
 - 测试算法
 - 使用算法
 
 
在构造决策树的时候,如何比较不同的决策树之间的优劣。
使用熵来度量。
熵 是度量一个集合混乱度的标准,其定义为信息的期望值。
题外话,熵研究的创始者是 克劳德·香农 ,被公认为二十世纪最聪明的人之一。有一句话是这一说的,“贝尔实验室和MIT实验室很多人将香农和爱因斯坦相提并论,而其他人认为这种对比是不公平的—对香农是不公平的”。