早上读书,读到了决策树。现在自己回想一下决策树相关的知识点。
- 是什么: 经常用来做分类处理的一种算法
- 为什么: 决策树通过制定一系列的规则来判断物品是否属于某个范围,分类特征的划分和选取对决策树分类效果起到了至关重要的作用
- 怎么做:
- 收集数据
- 准备数据,必须要将数据离散化,否则无法使用决策树来进行分类操作
- 分析数据,构造一颗完整的决策树,通过自查,确保其符合预期
- 训练算法
- 测试算法
- 使用算法
在构造决策树的时候,如何比较不同的决策树之间的优劣。
使用熵来度量。
熵 是度量一个集合混乱度的标准,其定义为信息的期望值。
题外话,熵研究的创始者是 克劳德·香农 ,被公认为二十世纪最聪明的人之一。有一句话是这一说的,“贝尔实验室和MIT实验室很多人将香农和爱因斯坦相提并论,而其他人认为这种对比是不公平的—对香农是不公平的”。