分类目录归档:Python性能优化

数据存储方式对比

1 常见存储格式说明

1.1 表格形式

得益于强大的pandas模块,与数据框的结构更贴近的表格文件是Python中最流行的数据文件存储格式之一。对应的存储文件一般后缀为.CSV或.XLSX

  • CSV(Comma Separated Values)是一种以逗号作为分隔的纯文本格式文件
  • CSV格式的好处在于易读性,但在处理大规模数据时会比较慢,压缩效率也会差一些
  • XLSX或XLS的文件相比于CSV格式更

Read more

Pandas模块替代品分析

1 背景知识

本文内容主要摘自: 《Is something better than pandas when the dataset fits the memory?》
代码地址

性能对比主要围绕5个操作展开:

  1. 读取700M CSV文件:load_transactions
  2. 读取30M CSV文件:load_identity
  3. 基于某列(string格式)进行merge操作:merge
  4. 分别对六列数据进行聚合操作(s

Read more

模块导入耗时分析

1 分析工具tuna(疑似远程环境不可用)

轻量级Python文件性能查看器

项目地址

安装:pip install tuna

用法1:运行性能分析

python -mcProfile -o program.prof yourfile.py

tuna program.prof

用法2:模块导入性能

python -X importtime yourfile.py 2> import.log

#简写方法

python3 -X importtime -c "import

Read more