分类目录归档:利用python进行数据分析 | Digital Garden

分类目录归档：利用python进行数据分析

利用python进行数据分析-总结

发表评论

3148 views

1 基本信息
2 大纲
3 教学资源
4 关键字

1 基本信息

1.1 书籍名称：《利用python进行数据分析》

1.2 撰写作者：Wes McKinney

1.3 出版日期：2022-10-19

1.4 品读时间：2023-03-24~2023-04-10

1.5 整体耗时：约15h

1.6 摘要

本

13.《Python数据分析》数据分析案例

发表评论

2073 views

1 来自Bitly的USA.gov数据
2 MovieLens 1M数据集
3 1880-2010年期间全美婴儿姓名
4 USDA食品数据库
5 2012联邦选举委员会数据库

本章针对一些真实数据集进行处理和分析，以便复习并实践之前章节的内容

本章仅简略记录核心内容，不再展示具体代码，代码可参考本书配套Git项目-13章

1 来自Bitly的USA.gov数据

短域名供应商Bitly提供的用户的网络访问信息（已脱敏数据，目前已该服务已关闭）

主要实践内容：

解析JSON格式数据，借助seaborn模块进行数据可视化
处理时区信息，处理缺失数据，并统计最高频的10个时区
筛选windo

12.《Python数据分析》建模相关Python库介绍

发表评论

2019 views

1 衔接pandas与建模代码
2 使用Patsy创建模型描述
3 statsmodels介绍
4 scikit-learn介绍

本章主要简单介绍了statsmodels 和 scikit-learn这两个Python建模的常用模块

1 衔接pandas与建模代码

先使用pandas进行数据加载和清理后，再进行建模是模型开发的一个常见工作流

一般建模工具都支持数组结构，所以经常用to_numpy方法将DataFrame转换为NumPy数组

代码示例：

data = pd.DataFrame({
     'x0': [1, 2, 3, 4, 5],
     '

11.《Python数据分析》时间序列

发表评论

1980 views

1 日期和时间数据类型及用法
2 时间序列基础
3 日期的范围，频率和平移
4 时区处理
5 时期及其算术运算
6 重采样及频率转换
7 移动窗口函数

常见的三种时间格式：时间戳（timestamp），时期（period），时间间隔（interval）

pandas内置了很多处理时间序列的工具和算法

pandas也支持将时间间隔（interval）作为索引使用，只是本书未提及

1 日期和时间数据类型及用法

除了pandas，本章还会用到datetime（用的最多）、time以及calendar这三个模块

代码示例：

from datetime import datetime
now

10.《Python数据分析》数据聚合与分组计算

发表评论

2105 views

1 分组机制
2 数据聚合
3 apply：更一般化的”拆分-处理-合并“
4 transform：“解包”分组聚合结果
5 透视表和交叉表

1 分组机制

按照指定的行列取值进行分组，并按组进行计算（求和、均值、标准差等）

代码示例：

df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
                    'key2' : ['one', 'two', 'o

9.《Python数据分析》绘图和可视化

发表评论

2136 views

1 matplotlib API入门
2 使用pandas和seaborn绘图
3 其他Python可视化工具

本章主要围绕matplotlib和seaborn两个模块进行可视化的演示

1 matplotlib API入门

matplotlib的图像都是基于Figure对象

plt.figure()可以创建一个空白的新Figure
通过Figure对象的属性实现对图片的调整（比如figsize控制图片大小）
Figure对象可以通过add_subplot创建多子图，并可以依次进行绘制
直接调用绘图函数时，Figure对象等创建过程会在内部自动进行

代码示例：

import matp

8.《Python数据分析》数据的联接、合并与重塑

发表评论

2081 views

1 层次化索引
2 合并数据集
3 重塑和旋转

1 层次化索引

层次化索引（hierarchical indexing）为pandas提供了一种以低维形式处理高维数据的方法

层次化索引的简单示例：

data = pd.Series(np.random.randn(9),index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
    									   [1, 2, 3, 1, 3, 1,

7.《Python数据分析》数据清洗和准备

发表评论

2146 views

1 处理缺失数据
2 数据转换
3 扩展数据类型
4 字符串操作
5 类别型数据

在整个数据分析和建模的过程中，数据清洗和预处理将占据其中80%的时间

1 处理缺失数据

pandas沿用了R语言中的习惯，将缺失值表示为NA（not available）

Python内置的None也可以作为NA
对于浮点型数据来说，也会用NaN（Not a Number）表示缺失

处理缺失的代码示例：

string_data = pd.Series(["aardvark", np.nan, None, "avocado"])
string_data.isna(

6.《Python数据分析》数据加载与存储

发表评论

1814 views

1 读写文本格式的数据
2 二进制数据格式
3 与网页API交互
4 与数据库交互

1 读写文本格式的数据

常见读取函数： | 函数名称 | 简单描述 | | ---------------- | ------------------------------------------------------------- | | read_csv | 从文件、URL、文件型对象中加载带分隔符的数据，默认分隔符为逗号 | | read_fwf |

5.《Python数据分析》pandas入门

发表评论

2019 views

1 pandas数据结构介绍
2 基本功能
3 绘制和描述统计

pandas是后续数据清理和分析的重要工具

pandas是基于numpy构建的，但支持异构的数据（不同于numpy，pandas中不同列的类型可以是多样化的，比如日期、数值、字符串等）。pandas的功能定位可以对标Excel，但相比于Excel会更加地灵活强大

1 pandas数据结构介绍

pandas包含两个主要数据结构：Series和DataFrame

Series是一种类似于一维数组的对象，包含了列表、字典或一维numpy数组的很多特性；每个Series都是由一个名称（name）、一组index和一组values构

个人笔记

Digital Garden | 王半仙

1 基本信息

1.1 书籍名称：《利用python进行数据分析》

1.2 撰写作者：Wes McKinney

1.3 出版日期：2022-10-19

1.4 品读时间：2023-03-24~2023-04-10

1.5 整体耗时：约15h

1.6 摘要

1 来自Bitly的USA.gov数据

1 衔接pandas与建模代码

1 日期和时间数据类型及用法

1 分组机制

1 matplotlib API入门

1 层次化索引

1 处理缺失数据

1 读写文本格式的数据

1 pandas数据结构介绍