附录二:数据集D的经验熵的计算过程

本数据集共14条数据,最终分类结果分为两类,即打球(yes)和不打球(no)。根据数据统计可知,在14个数据中,9个数据的结果为打球,如下所示:
5个数据的结果为不打球,如下所示:
根据经验熵的公式:[math]H\left(D\right)=-\sum\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}[/math][br] 求得:[math]H\left(D\right)=-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14}=0.9403[/math]

Information: 附录二:数据集D的经验熵的计算过程