写了一个优化 pandas 内存的工具 - V2EX
2020-05-04 21:46:25 Author: www.v2ex.com(查看原文) 阅读量:578 收藏

pandas 爆内存主要是两个原因

  • 默认 int64, float64
  • object 类型经常有太多重复项

针对这两点都做了优化, int 、float 转化为合适都类型, object 如果重复项太多就转化为 category

用法很简单

import fast_csv as fc
data = fc.read_csv('$PATH/$FILE.csv')

一般来讲 (我最近用的几个 kaggle 的 data),能减少 50%内存,有时能减少 90%以上. 没有什么副作用,和一般直接用pandas读 csv 是一样的,都是 pandas.DataFrame

开源在 https://github.com/YUX-IO/fast_csv

安装 pip install fast_csv


文章来源: https://www.v2ex.com/t/668523#reply1
如有侵权请联系:admin#unsafe.sh