分类目录归档:Python

Pandas模块替代品分析

1 背景知识

本文内容主要摘自: 《Is something better than pandas when the dataset fits the memory?》
代码地址

性能对比主要围绕5个操作展开:

  1. 读取700M CSV文件:load_transactions
  2. 读取30M CSV文件:load_identity
  3. 基于某列(string格式)进行merge操作:merge
  4. 分别对六列数据进行聚合操作(s

Read more

tsfresh概述

1 基本介绍

tsfresh是专门用于时序类数据的特征工程构建工具

tsfresh 主要特点:

  1. 并行化高效自动构建特征
  2. 兼容Python常见的数据格式(pandas或scikit-learn)

tsfresh 局限性:

  1. 不适合流数据处理,更适合离线数据
  2. 不包含模型训练的功能(尽量兼容scikit-learn,不重复造轮子)
  3. 仅考虑时序的顺序性,对时间间隔差异较大

Read more

Python 优质模块汇总

Read more

模块导入耗时分析

1 分析工具tuna(疑似远程环境不可用)

轻量级Python文件性能查看器

项目地址

安装:pip install tuna

用法1:运行性能分析

python -mcProfile -o program.prof yourfile.py

tuna program.prof

用法2:模块导入性能

python -X importtime yourfile.py 2> import.log

#简写方法

python3 -X importtime -c "import

Read more

Python 操作数据库工具总结

1 Python连接sqlite3

sqlite3是一种文件数据库,Python内置了sqlite3驱动:

import sqlite3

# 数据库连接
con = sqlite3.connect('mydata.sqlite')
# 执行sql-建表语句
query = "CREATE TABLE test (a VARCHAR(20), b VARCHAR(20), c REAL,        d INTEGER);"
con.execute(query)
con.co

Read more

seaborn快速入门

Read more

skleran数据集

datasets数据集

sklearn的数据集库datasets提供很多不同的

Read more

Python 读取xml文件

1 XML文件

XML 指的是可扩展标记语言(eXtensible Markup Language),和json类似也是用于存储和传输数据,还可以用作配置文件。类似于HTML超文本标记语言,但是HTML所有的标签都是预定义的,而xml的标签可以随便定义。

<!--注释-->
<book category="python">
    <title> xml test <\title>	
<\bo

Read more