1 背景知识
本文内容主要摘自:
《Is something better than pandas when the dataset fits the memory?》
代码地址
性能对比主要围绕5个操作展开:
- 读取700M CSV文件:load_transactions
- 读取30M CSV文件:load_identity
- 基于某列(string格式)进行merge操作:merge
- 分别对六列数据进行聚合操作(s
分类目录归档:Python
本文内容主要摘自:
《Is something better than pandas when the dataset fits the memory?》
代码地址
性能对比主要围绕5个操作展开:
轻量级Python文件性能查看器
安装:pip install tuna
用法1:运行性能分析
python -mcProfile -o program.prof yourfile.py
tuna program.prof
用法2:模块导入性能
python -X importtime yourfile.py 2> import.log
#简写方法
python3 -X importtime -c "import
sqlite3是一种文件数据库,Python内置了sqlite3驱动:
import sqlite3
# 数据库连接
con = sqlite3.connect('mydata.sqlite')
# 执行sql-建表语句
query = "CREATE TABLE test (a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER);"
con.execute(query)
con.co
sklearn的数据集库datasets提供很多不同的
XML 指的是可扩展标记语言(eXtensible Markup Language),和json类似也是用于存储和传输数据,还可以用作配置文件。类似于HTML超文本标记语言,但是HTML所有的标签都是预定义的,而xml的标签可以随便定义。
<!--注释-->
<book category="python">
<title> xml test <\title>
<\bo