关于机器学习的评估指标,在之前的学习中已经涉及了很多,大体可分为混淆矩阵、ROC曲线和PR曲线,也记录下很多相关的内容。虽然记录下这么多内容,但是大都是知其然不知所以然的状况,在实际分类算法的实践中,往往只是将准确率作为评判标准,这也可能是因为公开数据集大都是类别均衡的缘故吧。

最近涉及到度量学习领域,在完成模型计算后,很重要的一步就是对特征向量进行相似度分类,选取合适的分类阈值就很有必要。如何设置有效的分类阈值,关键在于如何对算法进行评判和分析。这个过程中重新对于混淆矩阵、ROC曲线和PR曲线进行了分析和思考。

在重新复习相关文档的过程中,还发现了有些基础概念理解错了(囧。。。)。这篇文章系统性的整理相关的概念,并且通过scikit库进行相应的实验。

注:仅涉及二分类实现,后续再扩展到多分类

相关实现位于:zjykzj/scikit-learn

阅读全文 »

这一段时间的状态特别不好,尝试了好多种方式,但是对于算法的核心指标一直没有提升,心里很憋屈,不知道什么时候是个头。

阅读全文 »

好久没有写随笔了,这不,2022年开始了,这一次早点开始《2021年小结》,回顾一下这一年在工作、学习和生活上的发展以及一些自己对于未来的思考。

阅读全文 »