决策树

早上读书,读到了决策树。现在自己回想一下决策树相关的知识点。

  • 是什么: 经常用来做分类处理的一种算法
  • 为什么: 决策树通过制定一系列的规则来判断物品是否属于某个范围,分类特征的划分和选取对决策树分类效果起到了至关重要的作用
  • 怎么做:
    • 收集数据
    • 准备数据,必须要将数据离散化,否则无法使用决策树来进行分类操作
    • 分析数据,构造一颗完整的决策树,通过自查,确保其符合预期
    • 训练算法
    • 测试算法
    • 使用算法

在构造决策树的时候,如何比较不同的决策树之间的优劣。

使用熵来度量。

是度量一个集合混乱度的标准,其定义为信息的期望值。

题外话,熵研究的创始者是 克劳德·香农 ,被公认为二十世纪最聪明的人之一。有一句话是这一说的,“贝尔实验室和MIT实验室很多人将香农和爱因斯坦相提并论,而其他人认为这种对比是不公平的—对香农是不公平的”。