9.《Python数据分析》绘图和可视化

本章主要围绕matplotlib和seaborn两个模块进行可视化的演示

1 matplotlib API入门

matplotlib的图像都是基于Figure对象

  • plt.figure()可以创建一个空白的新Figure
  • 通过Figure对象的属性实现对图片的调整(比如figsize控制图片大小)
  • Figure对象可以通过add_subplot创建多子图,并可以依次进行绘制
  • 直接调用绘图函数时,Figure对象等创建过程会在内部自动进行

代码示例:

import matp

Read more

NEJM医学前沿23年1季度文章集锦

仅搜集收录了部分个人感兴趣的文章,并进行简单记录

1 概念科普

1.1 自杀:高危因素、风险评估和预防

2023-02-03 12:29 文章链接

背景知识:

  • 世界卫生组织(WHO)估计2016年全球自杀率

Read more

BASIC重症医学23年1季度文章集锦

仅搜集收录了部分个人感兴趣的文章,并进行简单记录

1 概念科普

1.1 不同年龄、性别和医学专业医护人员打字速度的数字差异

2023-01-03 06:30 文章链接

评价指标:校正

Read more

ART-对抗性鲁棒性工具集

1 基本介绍

对抗性鲁棒性工具集(Adversarial Robustness Toolbox,ART)是用于机器学习安全性的Python库

  • 从逃逸,数据污染,模型提取和推断的对抗性威胁等方面捍卫和评估模型
  • 适用广泛,支持所有常见的数据类型、机器学习任务、机器学习框架

本项目由IBM团队在2019年开源。项目文档不是特别完善,但是示例丰富,API设计

Read more

回归内生性问题

1 内生性问题

对于回归方程$Y = a + bX + e$,当解释变量$X$和误差项$e$存在相关性时,说明回归模型存在内生性问题

内生性问题的产生原因:

  • 遗漏变量(比如在分析学历和收入的关系时,容易忽略个人能力的影响)
  • 反向因果(比如分析政策对经济影响时,要意识到经济对政策也是有影响的)
  • 选择偏误(样本选择偏误和自选择偏误)、以及测量误差等

内生性问题的后果:在小样本下,内生变量和外生变量估计系数都有偏。在大样本下,内生变量估计系数不一致。外

Read more

许立志

1 基本信息

许立志(1990年7月28日-2014年9月30日),曾用笔名浅晓痕,中国诗人

2 个人经历

1990年7月28日,许立志生于广东省揭阳市玉湖镇东寮村。2010年,开始诗歌创作。2011年初,进入深圳富士康工厂成为一名流水线工人。2012年起,在厂刊《富士康人》上发表诗歌、散文等30余篇。2014年9月30日,从深圳龙华一座大厦的17层跳楼身亡,终年24岁。

按照习俗,自杀者不能归葬祖坟。2014年10月15日傍晚,许立志的哥哥将他的骨灰撒进了深圳南澳的海水中。

这大海葬着立志——陈年喜

后来人们

Read more

Optuna-超参优化

1 基本介绍

Optuna 是一个为机器学习设计的自动超参数优化软件框架

  • 轻量级、多功能和跨平台架构;依赖少,安装简单
  • Python式搜索空间(条件语句和循环均为Python语法)
  • 高效的优化算法;先进的超参采样方法,支持剪枝算法
  • 易用的并行优化;少量改动代码即可实现多服务器并行
  • 便捷的可视化;支持各种绘图函数展示优化历史记录

项目地址
官方文档
中文文档 :不推荐,因为很久没更新了(230331)

截至230331,Op

Read more

8.《Python数据分析》数据的联接、合并与重塑

1 层次化索引

层次化索引(hierarchical indexing)为pandas提供了一种以低维形式处理高维数据的方法

层次化索引的简单示例:

data = pd.Series(np.random.randn(9),index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
    									   [1, 2, 3, 1, 3, 1, 

Read more

TPE:基于贝叶斯的超参优化算法

中文标题:TPE:基于贝叶斯的超参优化算法改进

英文标题:Algorithms for hyper-parameter optimizati

Read more

核密度估计

核密度估计(kernel density estimation,简称KDE)是核平滑对概率密度估计的应用,即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)

核密度估计的实现:

  • 假设$(x_1,x_2,...,x_n)$是来自同一个单变量未知分布中的独立样本
  • 核密度估计可以根据这些样本推测出该分布的概率密度函数: $$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_{

Read more