一直以来都有在思考自己在软件/算法开发的道路上应该怎么走下去,已经学习了很多的内容,也参与了很多项目的开发,但是总感觉有更多的知识点、更多的项目难题等着我去完成。工作压力越来越大,也在渐渐的磨灭自己对于编程的热情。

前几天跑步的时候突然想到一句话:君子不器,随后联想到器、术、法的概念,刚好能够跟自己对于知识、技能和能力的理解结合起来。

阅读全文 »

关于机器学习的评估指标,在之前的学习中已经涉及了很多,大体可分为混淆矩阵、ROC曲线和PR曲线,也记录下很多相关的内容。虽然记录下这么多内容,但是大都是知其然不知所以然的状况,在实际分类算法的实践中,往往只是将准确率作为评判标准,这也可能是因为公开数据集大都是类别均衡的缘故吧。

最近涉及到度量学习领域,在完成模型计算后,很重要的一步就是对特征向量进行相似度分类,选取合适的分类阈值就很有必要。如何设置有效的分类阈值,关键在于如何对算法进行评判和分析。这个过程中重新对于混淆矩阵、ROC曲线和PR曲线进行了分析和思考。

在重新复习相关文档的过程中,还发现了有些基础概念理解错了(囧。。。)。这篇文章系统性的整理相关的概念,并且通过scikit库进行相应的实验。

注:仅涉及二分类实现,后续再扩展到多分类

相关实现位于:zjykzj/scikit-learn

阅读全文 »