1 常见存储格式说明
1.1 表格形式
得益于强大的pandas模块,与数据框的结构更贴近的表格文件是Python中最流行的数据文件存储格式之一。对应的存储文件一般后缀为.CSV或.XLSX
- CSV(Comma Separated Values)是一种以逗号作为分隔的纯文本格式文件
- CSV格式的好处在于易读性,但在处理大规模数据时会比较慢,压缩效率也会差一些
- XLSX或XLS的文件相比于CSV格式更
分类目录归档:Python性能优化
得益于强大的pandas模块,与数据框的结构更贴近的表格文件是Python中最流行的数据文件存储格式之一。对应的存储文件一般后缀为.CSV或.XLSX
本文内容主要摘自:
《Is something better than pandas when the dataset fits the memory?》
代码地址
性能对比主要围绕5个操作展开:
轻量级Python文件性能查看器
安装:pip install tuna
用法1:运行性能分析
python -mcProfile -o program.prof yourfile.py
tuna program.prof
用法2:模块导入性能
python -X importtime yourfile.py 2> import.log
#简写方法
python3 -X importtime -c "import