混淆矩阵-ROC曲线-PR曲线-二分类
关于机器学习的评估指标,在之前的学习中已经涉及了很多,大体可分为混淆矩阵、ROC
曲线和PR
曲线,也记录下很多相关的内容。虽然记录下这么多内容,但是大都是知其然不知所以然的状况,在实际分类算法的实践中,往往只是将准确率作为评判标准,这也可能是因为公开数据集大都是类别均衡的缘故吧。
最近涉及到度量学习领域,在完成模型计算后,很重要的一步就是对特征向量进行相似度分类,选取合适的分类阈值就很有必要。如何设置有效的分类阈值,关键在于如何对算法进行评判和分析。这个过程中重新对于混淆矩阵、ROC
曲线和PR
曲线进行了分析和思考。
在重新复习相关文档的过程中,还发现了有些基础概念理解错了(囧。。。)。这篇文章系统性的整理相关的概念,并且通过scikit
库进行相应的实验。
注:仅涉及二分类实现,后续再扩展到多分类
相关实现位于:zjykzj/scikit-learn