13.《Python数据分析》数据分析案例 | Digital Garden | 王半仙

13.《Python数据分析》数据分析案例

2073 views

1 来自Bitly的USA.gov数据
2 MovieLens 1M数据集
3 1880-2010年期间全美婴儿姓名
4 USDA食品数据库
5 2012联邦选举委员会数据库

本章针对一些真实数据集进行处理和分析，以便复习并实践之前章节的内容

本章仅简略记录核心内容，不再展示具体代码，代码可参考本书配套Git项目-13章

1 来自Bitly的USA.gov数据

短域名供应商Bitly提供的用户的网络访问信息（已脱敏数据，目前已该服务已关闭）

主要实践内容：

解析JSON格式数据，借助seaborn模块进行数据可视化
处理时区信息，处理缺失数据，并统计最高频的10个时区
筛选window用户与非window用户并分组统计最高频的10个时区

2 MovieLens 1M数据集

MovieLens数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表：评分（具体分值，评价时间，评价人id，评价电影id）、用户信息（用户id，年龄、邮编、性别和职业等）和电影信息（电影id，风格类型，年代等）

主要实践内容：

表关联，筛选评分数据大于250条的电影
按性别计算每部电影的平均得分
筛选最受女性/男性欢迎的电影TopN
找出男性和女性观众分歧最大的电影

3 1880-2010年期间全美婴儿姓名

美国社会保障总署（SSA）提供了一份从1880年到现在的婴儿名字频率数据

主要实践内容：

多文件拼接（原数据是按年份分割的），分性别统计总出生数
分性别统计总出生数随年份的变化趋势并可视化
统计最常见命名Top1000，可视化随年份分析某个常用命名的使用趋势
可视化随年份的命名多样性（统计Top1000所占比例）变化趋势，并分性别探讨
可视化男孩/女孩名字在最后一个字母上的分布随年份的变化
分析哪些名字从女孩名字变成了男孩名字（以及相反的情况）

有趣的结论：

命名多样性逐渐增强，并且女孩一般多样性比男孩高
以字母"n"结尾的男孩名字出现了显著的增长
Lesley或Leslie这类名字从女孩名字变成了男孩名字

4 USDA食品数据库

美国农业部（USDA）制作了一份有关食物营养信息的数据库，Ashley Williams分享了该数据的JSON版

主要实践内容：

查看食物的分布情况，包括食物分类和营养类型
分析得出各营养成分最为丰富的食物TopN

5 2012联邦选举委员会数据库

美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息（本书于2012年6月份下载的一份CSV文件，大小约为150MB）。

主要实践内容：

查询数据基本信息，比如候选人名单；手动录入党派信息
根据党派，职业和雇主统计赞助信息并进行对比分析
筛选对两位热门候选（Obama和Romney）总出资额最高的职业和企业
对赞助金额进行离散化处理，并分析不同候选人的占比
各候选人在各州的总赞助额比例

有趣的结论：

律师们更倾向于资助民主党，而企业主则更倾向于资助共和党
在小额赞助方面，Obama获得的数量比Romney多得多

往年同期文章