分类目录归档:Python | Digital Garden

分类目录归档：Python

1640 views

1 常见 Pandas 参数配置
2 Series 与 DataFrame 的互转
3 减少类别型数据的内存消耗
4 警惕 object 类型陷阱
5 基于范围条件进行表连接
6 处理 SettingWithCopyWarning 问题
参考

1 常见 Pandas 参数配置

pd.set_option('display.max_rows', 5) # 最大显示行数

pd.set_option('display.max_columns', 15) # 最大显示列数

pd.set_option('display.max_colwidth'

Pandas 模块替代品分析

发表评论

2614 views

1 背景知识
2 Pandas VS Dask
3 Pandas VS PySpark
4 Pandas VS Vaex
5 Pandas VS Julia
6 结论
补充

1 背景知识

本文内容主要摘自：
《Is something better than pandas when the dataset fits the memory?》
代码地址

性能对比主要围绕5个操作展开：

读取700M CSV文件：load_transactions
读取30M CSV文件：load_identity
基于某列（string格式）进行merge操作：merge
分别对六列数据进行聚合操作（s

tsfresh概述

发表评论

5510 views

1 基本介绍
2 数据格式
- 2.1 输入数据
- 2.2 输出特征
3 基本功能
- 3.1 特征计算
- 3.2 特征过滤
4 进阶特性

1 基本介绍

tsfresh是专门用于时序类数据的特征工程构建工具

tsfresh 主要特点：

并行化高效自动构建特征

兼容Python常见的数据格式（pandas或scikit-learn）

tsfresh 局限性：

不适合流数据处理，更适合离线数据

不包含模型训练的功能（尽量兼容scikit-learn，不重复造轮子）

仅考虑时序的顺序性，对时间间隔差异较大

Python 优质模块汇总

发表评论

2512 views

1 数据探索
2 数据处理
3 文本分析
4 模型解释
- 4.1 InterpretML-机器学习可解释性技术整合

模块导入耗时分析

发表评论

2215 views

1 分析工具tuna（疑似远程环境不可用）
2 imp手动导入模块（无效）
3 版本降级（成功）

1 分析工具tuna（疑似远程环境不可用）

轻量级Python文件性能查看器

项目地址

安装：pip install tuna

用法1：运行性能分析

python -mcProfile -o program.prof yourfile.py

tuna program.prof

用法2：模块导入性能

python -X importtime yourfile.py 2> import.log

#简写方法

python3 -X importtime -c "import

Python 操作数据库工具总结

发表评论

2153 views

1 Python连接sqlite3
2 使用SQLAlchemy简化操作

1 Python连接sqlite3

sqlite3是一种文件数据库，Python内置了sqlite3驱动：

import sqlite3

# 数据库连接
con = sqlite3.connect('mydata.sqlite')
# 执行sql-建表语句
query = "CREATE TABLE test (a VARCHAR(20), b VARCHAR(20), c REAL,        d INTEGER);"
con.execute(query)
con.co

seaborn 快速入门

发表评论

3432 views

Python 读取xml文件

发表评论

1958 views

1 XML文件
2 Python对XML的解析
3 minidom解析xml文件
4 Python相关模块
5 参考文献

1 XML文件

XML 指的是可扩展标记语言(eXtensible Markup Language)，和json类似也是用于存储和传输数据，还可以用作配置文件。类似于HTML超文本标记语言，但是HTML所有的标签都是预定义的，而xml的标签可以随便定义。

<!--注释-->
<book category="python">
    <title> xml test <\title>	
<\bo

skleran数据集

发表评论

2187 views

datasets数据集

sklearn的数据集库datasets提供很多不同的

个人笔记

Digital Garden | 王半仙

1 常见 Pandas 参数配置

1 背景知识

1 基本介绍

1 分析工具tuna（疑似远程环境不可用）

1 Python连接sqlite3

1 XML文件

datasets数据集