1)正确率(accuracy)
正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;
2)错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 – error rate;
3)灵敏度(sensitivity)-真阳性率(这两个指标,反映的是诊断试验本身的特性,即发现患者、确定非患者的能力)
sensitivity = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力,又名真阳性率;
4)特异度(specificity) -真阴性率(这两个指标,反映的是诊断试验本身的特性,即发现患者、确定非患者的能力)
specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力,又名真阴性率;
5)精度(precision)-查准率
精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);
6)召回率(recall)-查全率、灵敏度、真阳性率
召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitivity,可以看到召回率与灵敏度是一样的;
7)真阳率(True Positive Rate, TPR)
TPR = TP/(TP+FN)正样本中,能被识别为真的概率,描述识别出的所有正例占所有正例的比例;
8)假阳率(False Positive Rate, FPR)
FPR = FP/(FP+TN) 负样本中,被识别为真的概率,描述将负例识别为正例的情况占所有负例的比例;
9)ROC曲线(Receiver Operating Characteristic)
把假阳率当x轴,真阳率当y轴画一个二维平面直角坐标系;
10)AUC(Area Under Curve)
ROC曲线下方的面积了。越接近1表示分类器越好。
11)P-R曲线 / 查准率-查全率曲线 / 精确度-召回率曲线
纵轴为精确度P,横轴为召回率R,单调减少。好的模型应该是在recall增长的同时保持precision的值在一个很高的水平,而性能较差的模型要损失很多precision才能换来recall值的提高。
12)mAP定义及相关概念
- mAP: mean Average Precision, 即各类别AP的平均值
- AP: PR曲线下面积,后文会详细讲解
- PR曲线: Precision-Recall曲线
- Precision: TP / (TP + FP)
- Recall: TP / (TP + FN)
- TP: IoU>0.5的检测框数量(同一Ground Truth只计算一次)
- FP: IoU<=0.5的检测框,或者是检测到同一个GT的多余检测框的数量
- FN: 没有检测到的GT的数量
13)其他评价指标
- 计算速度:分类器训练和预测需要的时间;
- 鲁棒性:处理缺失值和异常值的能力;
- 可扩展性:处理大数据集的能力;
- 可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解的,而神经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。