大数据分析技术领域不仅包含数据和算法,还有测试和验证等重要环节,其主要职能是对算法产生的模型(或称为学习器),就其预测的准确性、使用数据的测试集进行验证,用以评判学习器的性能。性能不好的学习器,要考虑调整参数,或者更改算法;而性能良好的学习器,其良好程度如何、是否达到满意程度等都需要相关指标精确表达。下面以 KNN 算法为例,就 Orange 平台所采用的测试验证模块的主要使用方法及指标含义详细说明。
(一)模 块[br][br] 1. 混淆矩阵模块[br][br] 混淆矩阵模块的名称是 Confusion Matrix,其模块图标是 [img]https://s21.ax1x.com/2025/02/12/pEuZH6s.png[/img],其矩阵的表达如表 2-4-3所示。[br] 表 2-4-3 Confusion Matrix 矩阵表[br][img][/img][br][br] 如在汽车推荐算例中,产生的混淆矩阵模块如图 2-4-7 所示。[br][center][img]https://s21.ax1x.com/2025/02/12/pEuZxtU.png[/img][br]图 2-4-7 汽车数据案例的 KNN 混淆矩阵模块[/center][br] 图 2-4-7 显示了四个目标属性的分类情况,测试集数据共 518 个,其中沿对角线四个数据是各类的预测正确率。可以看出,unacc 类的正确率最高,达 97.7%,只有 2.3%被预测为acc。而 good 类的正确率最低,只有 29.2%,而 62.5%被预测为 acc,8.3%被预测为 unacc。可见,该算法在此场景的应用有待商榷,还需要其他算法的应用对比。[br][br] 按预测样本数量来表达,即可参见图 2-4-8。[br][center][img]https://s21.ax1x.com/2025/02/12/pEuZxtU.png[/img][br]图 2-4-8 汽车数据案例的 KNN 混淆矩阵(按样本数)[/center][br][br]2. 测试模块测试模块的名称是 Test and Score,其模块图形是[img]https://s21.ax1x.com/2025/02/12/pEuZ4k8.png[/img] 。仍然以汽车推荐算例为例,其界面如图 2-4-9 所示。[br][center][img]https://s21.ax1x.com/2025/02/12/pEueKcd.png[/img][br]图 2-4-9 汽车数据案例测试模块[/center]
(二)指 标[br][br] 从图 2-4-9 中可以看出,对测试集验证的主要指标有:AUC、CA、F1、Precision 和 Recall。在介绍这几个指标的含义及应用之前,需要介绍以下两个公式。[br][br] [math]FP_{rate}=\frac{FP}{N},[/math]指模型对负例预测的错误率,值越小越好。[br][br] [math]TP_{rate}=\frac{TP}{P},[/math] 指模型对正例预测的正确率,值越大越好。[br][br] (1)CA:Computer Accuracy 的简称,指模型的计算精度。其计算公式为[math]CA=\frac{TP+TN}{P+N},[/math]是指所有预测准确的样本量除以测试集的样本总量。[br] [br] (2)Precision:称之为精确度。其计算公式为[math]Precision=\frac{TP}{TP+FP}[/math],是指在所有预测为正例的样本中,被预测准确的样本占比多少。实际上,精确率是针对预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。[br][br] 对于二分类模型来说,可以直接调用以上公式进行计算;对于多分类模型来说,要用Macro Average 规则来进行计算,即将多分类模型分解为多个二分类模型,分别依据以上公式计算各个精确度,然后取平均值即可。[br][br] 比如上例是个四分类模型,则 acc 类 的 [math]Precision=\frac{106}{130}=81.54\%[/math], good 类 的[br][br][math]Precision=\frac{11}{19}=87.89\%[/math],unacc 类的 [math]Precision=\frac{340}{359}=94.71\%[/math],vgood 类的 [math]Precision=\frac{9}{10}=90\%[/math]。则总的 [math]Precision=\frac{\text{81.54%+ 87.89%+ 94.71%+ 90%}}{4}=88.54\%。[/math][br] [br] (3)recall:称之为召回率。其计算公式为[math]Recall=\frac{TP}{P}[/math],是指正确预测出的正例数占样本中总正例数的比例。实际上,召回率是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。[br][br] (4)F1:预测的调和平均率。其计算公式为 [math]F_1=\frac{2}{\frac{1}{Precision}+\frac{1}{Recall}}=\frac{TP}{TP+\frac{FN+FP}{2}}[/math],从公[br]式中可以看出,F1 是求精准率和召回率的调和平均数的指标。通过对二者求调和平均数,能够更好地反映学习器预测效能的实际平均情况。[br][br] (5)AUC:Area Under Curve 的简称,表示 ROC 曲线下的面积。ROC 是 Receiver Operating Characteristic 的缩写,一般称之为“接受者操作特性曲线”。而 ROC 又与以下两个概念相关:[br][br] [math]\text{TPR=灵敏度(Sensitivity)}=\frac{TP}{TP+FN}[/math][br][br] [math]\text{FPR=1-特异度(Specificity)=}\frac{FP}{FP+TN}[/math][br][br] 在一个二分类模型中,对于不同的阈值,可以得到连续的两值。为了形象化这一变化,在此引入 ROC,ROC 曲线可以用于评价一个分类器。在 Orange 中本例的 ROC 曲线如图 2-4-10 所示。[br][br][center][img]https://s21.ax1x.com/2025/02/12/pEueJN8.png[/img][br] 图 2-4-10 汽车数据案例 ROC 曲线[/center][br] 曲线由两个变量 1-Specificity 和 Sensitivity 绘制,1-Specificity=FPR,即假正类率。Sensitivity 即是真正类率。TPR(True positive rate)反映了正类覆盖程度。这个组合以 1-Specificity 对 Sensitivity,即是以代价(costs)对收益(benefits)。[br][br] 而 AUC 表示 ROC 中曲线下的面积,用于判断模型的优劣。如图 2-4-10 所示,连接对角线的面积刚好是 0.5,对角线的含义也就是随机判断预测结果,正负样本覆盖应该都是 50%。另外,ROC 曲线越陡越好,所以理想值是 1,即正方形。AUC 的值一般介于 0.5 和 1 之间。[br]AUC 评判标准可参考如下:[br][br] ● 0.5~0.7:效果较低。[br][br] ● 0.7~0.85:效果一般。[br][br] ● 0.85~0.95:效果很好。[br][br] ● 0.95~1:效果非常好。[br][br][br]