发布于 

Evaluation metrics Recall, Precision, BLEU and METEOR

考虑一个机器学习问题,我们想评价(evaluate)一个给定模型的好坏,在一些情况下我们可以直接用准确率(accuracy),但是accuracy并不是在所有情况都适用。

比如考虑一个垃圾邮件分类问题,如果一个模型对100封邮件(其中含有10封垃圾邮件)进行预测,该模型将所有邮件都识别成非垃圾邮件,这样准确率为90%。但是显然这个模型是有很大问题的,因为它对垃圾邮件的预测全部失败。在这种情况下,准确率就不能作为一个很好的衡量指标了。针对这种情况可以引入准确率和召回率。

Recall, Precision and F-measure

在定义recall和precision之前,假设我们已知真实的类别标签(Golden standard)(T(true))(F(false)), 和模型的输出分类(P,N)代表正负类。

在上述邮件分类问题中,Golden standard表示一百封邮件里哪些是垃圾邮件((F)),哪些是非垃圾邮件((T))。同时,我们的模型也会给出它对邮件类别的预测,我们将模型预测的非垃圾邮件数量记为(P) (positive), 将模型预测的垃圾邮件数量记为(N)(negative). 但是!模型的预测不一定是对的,所以我们用:

(TP) (Standard: True, Model: Positive) 表示本身是正类,模型也认为是正类的样本。

(FN)(Standard: False, Model: Negative) 表示本身是负类,模型也认为是负类的样本。

(TN)(Standard: True, Model: Negative) 表示本身是正类,模型却认为是负类的样本。

(FP)(Standard: False, Model: Positive) 表示本身是负类,模型却认为是正类的样本

Recall

Recall召回率定义为: [ Recall=frac{TP}{TP+TN}=frac


本站由 @anonymity 使用 Stellar 主题创建。