本章针对一些真实数据集进行处理和分析,以便复习并实践之前章节的内容
本章仅简略记录核心内容,不再展示具体代码,代码可参考本书配套Git项目-13章
1 来自Bitly的USA.gov数据
短域名供应商Bitly提供的用户的网络访问信息(已脱敏数据,目前已该服务已关闭)
主要实践内容:
- 解析JSON格式数据,借助seaborn模块进行数据可视化
- 处理时区信息,处理缺失数据,并统计最高频的10个时区
- 筛选window用户与非window用户并分组统计最高频的10个时区
2 MovieLens 1M数据集
MovieLens数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表:评分(具体分值,评价时间,评价人id,评价电影id)、用户信息(用户id,年龄、邮编、性别和职业等)和电影信息(电影id,风格类型,年代等)
主要实践内容:
- 表关联,筛选评分数据大于250条的电影
- 按性别计算每部电影的平均得分
- 筛选最受女性/男性欢迎的电影TopN
- 找出男性和女性观众分歧最大的电影
3 1880-2010年期间全美婴儿姓名
美国社会保障总署(SSA)提供了一份从1880年到现在的婴儿名字频率数据
主要实践内容:
- 多文件拼接(原数据是按年份分割的),分性别统计总出生数
- 分性别统计总出生数随年份的变化趋势并可视化
- 统计最常见命名Top1000,可视化随年份分析某个常用命名的使用趋势
- 可视化随年份的命名多样性(统计Top1000所占比例)变化趋势,并分性别探讨
- 可视化男孩/女孩名字在最后一个字母上的分布随年份的变化
- 分析哪些名字从女孩名字变成了男孩名字(以及相反的情况)
有趣的结论:
- 命名多样性逐渐增强,并且女孩一般多样性比男孩高
- 以字母"n"结尾的男孩名字出现了显著的增长
- Lesley或Leslie这类名字从女孩名字变成了男孩名字
4 USDA食品数据库
美国农业部(USDA)制作了一份有关食物营养信息的数据库,Ashley Williams分享了该数据的JSON版
主要实践内容:
- 查看食物的分布情况,包括食物分类和营养类型
- 分析得出各营养成分最为丰富的食物TopN
5 2012联邦选举委员会数据库
美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息(本书于2012年6月份下载的一份CSV文件,大小约为150MB)。
主要实践内容:
- 查询数据基本信息,比如候选人名单;手动录入党派信息
- 根据党派,职业和雇主统计赞助信息并进行对比分析
- 筛选对两位热门候选(Obama和Romney)总出资额最高的职业和企业
- 对赞助金额进行离散化处理,并分析不同候选人的占比
- 各候选人在各州的总赞助额比例
有趣的结论:
- 律师们更倾向于资助民主党,而企业主则更倾向于资助共和党
- 在小额赞助方面,Obama获得的数量比Romney多得多