13.《Python数据分析》数据分析案例

本章针对一些真实数据集进行处理和分析,以便复习并实践之前章节的内容

本章仅简略记录核心内容,不再展示具体代码,代码可参考本书配套Git项目-13章

1 来自Bitly的USA.gov数据

短域名供应商Bitly提供的用户的网络访问信息(已脱敏数据,目前已该服务已关闭)

主要实践内容:

  • 解析JSON格式数据,借助seaborn模块进行数据可视化
  • 处理时区信息,处理缺失数据,并统计最高频的10个时区
  • 筛选window用户与非window用户并分组统计最高频的10个时区

2 MovieLens 1M数据集

MovieLens数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表:评分(具体分值,评价时间,评价人id,评价电影id)、用户信息(用户id,年龄、邮编、性别和职业等)和电影信息(电影id,风格类型,年代等)

主要实践内容:

  • 表关联,筛选评分数据大于250条的电影
  • 按性别计算每部电影的平均得分
  • 筛选最受女性/男性欢迎的电影TopN
  • 找出男性和女性观众分歧最大的电影

3 1880-2010年期间全美婴儿姓名

美国社会保障总署(SSA)提供了一份从1880年到现在的婴儿名字频率数据

主要实践内容:

  • 多文件拼接(原数据是按年份分割的),分性别统计总出生数
  • 分性别统计总出生数随年份的变化趋势并可视化
  • 统计最常见命名Top1000,可视化随年份分析某个常用命名的使用趋势
  • 可视化随年份的命名多样性(统计Top1000所占比例)变化趋势,并分性别探讨
  • 可视化男孩/女孩名字在最后一个字母上的分布随年份的变化
  • 分析哪些名字从女孩名字变成了男孩名字(以及相反的情况)

有趣的结论:

  • 命名多样性逐渐增强,并且女孩一般多样性比男孩高
  • 以字母"n"结尾的男孩名字出现了显著的增长
  • Lesley或Leslie这类名字从女孩名字变成了男孩名字

4 USDA食品数据库

美国农业部(USDA)制作了一份有关食物营养信息的数据库,Ashley Williams分享了该数据的JSON版

主要实践内容:

  • 查看食物的分布情况,包括食物分类和营养类型
  • 分析得出各营养成分最为丰富的食物TopN

5 2012联邦选举委员会数据库

美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息(本书于2012年6月份下载的一份CSV文件,大小约为150MB)。

主要实践内容:

  • 查询数据基本信息,比如候选人名单;手动录入党派信息
  • 根据党派,职业和雇主统计赞助信息并进行对比分析
  • 筛选对两位热门候选(Obama和Romney)总出资额最高的职业和企业
  • 对赞助金额进行离散化处理,并分析不同候选人的占比
  • 各候选人在各州的总赞助额比例

有趣的结论:

  • 律师们更倾向于资助民主党,而企业主则更倾向于资助共和党
  • 在小额赞助方面,Obama获得的数量比Romney多得多

往年同期文章