之前因为服务器性能原因,对ImageNet数据集进行训练时出现数据加载瓶颈,当时搜索了多种方式,尝试对数据pipeline进行优化,从而提高数据加载能力。详情参见数据pipeline优化

这一次遇到了新的问题,就是在千万级别数据训练情况下如何在固定内存空间和其他硬件性能的情况下提高数据加载和预处理能力。

阅读全文 »