大海

SIMPLE THE COMPLEX

关于机器学习的评估指标,在之前的学习中已经涉及了很多,大体可分为混淆矩阵、ROC曲线和PR曲线,也记录下很多相关的内容。虽然记录下这么多内容,但是大都是知其然不知所以然的状况,在实际分类算法的实践中,往往只是将准确率作为评判标准,这也可能是因为公开数据集大都是类别均衡的缘故吧。

最近涉及到度量学习领域,在完成模型计算后,很重要的一步就是对特征向量进行相似度分类,选取合适的分类阈值就很有必要。如何设置有效的分类阈值,关键在于如何对算法进行评判和分析。这个过程中重新对于混淆矩阵、ROC曲线和PR曲线进行了分析和思考。

在重新复习相关文档的过程中,还发现了有些基础概念理解错了(囧。。。)。这篇文章系统性的整理相关的概念,并且通过scikit库进行相应的实验。

注:仅涉及二分类实现,后续再扩展到多分类

相关实现位于:zjykzj/scikit-learn

阅读全文 »

之前因为服务器性能原因,对ImageNet数据集进行训练时出现数据加载瓶颈,当时搜索了多种方式,尝试对数据pipeline进行优化,从而提高数据加载能力。详情参见 数据pipeline优化

这一次遇到了新的问题,就是在千万级别数据训练情况下如何在固定内存空间和其他硬件性能的情况下提高数据加载和预处理能力。

阅读全文 »