ART-对抗性鲁棒性工具集

1 基本介绍

对抗性鲁棒性工具集(Adversarial Robustness Toolbox,ART)是用于机器学习安全性的Python库

  • 从逃逸,数据污染,模型提取和推断的对抗性威胁等方面捍卫和评估模型
  • 适用广泛,支持所有常见的数据类型、机器学习任务、机器学习框架

本项目由IBM团队在2019年开源。项目文档不是特别完善,但是示例丰富,API设计

Read more

回归内生性问题

1 内生性问题

对于回归方程$Y = a + bX + e$,当解释变量$X$和误差项$e$存在相关性时,说明回归模型存在内生性问题

内生性问题的产生原因:

  • 遗漏变量(比如在分析学历和收入的关系时,容易忽略个人能力的影响)
  • 反向因果(比如分析政策对经济影响时,要意识到经济对政策也是有影响的)
  • 选择偏误(样本选择偏误和自选择偏误)、以及测量误差等

内生性问题的后果:在小样本下,内生变量和外生变量估计系数都有偏。在大样本下,内生变量估计系数不一致。外

Read more

许立志

1 基本信息

许立志(1990年7月28日-2014年9月30日),曾用笔名浅晓痕,中国诗人

2 个人经历

1990年7月28日,许立志生于广东省揭阳市玉湖镇东寮村。2010年,开始诗歌创作。2011年初,进入深圳富士康工厂成为一名流水线工人。2012年起,在厂刊《富士康人》上发表诗歌、散文等30余篇。2014年9月30日,从深圳龙华一座大厦的17层跳楼身亡,终年24岁。

按照习俗,自杀者不能归葬祖坟。2014年10月15日傍晚,许立志的哥哥将他的骨灰撒进了深圳南澳的海水中。

这大海葬着立志——陈年喜

后来人们

Read more

Optuna-超参优化

1 基本介绍

Optuna 是一个为机器学习设计的自动超参数优化软件框架

  • 轻量级、多功能和跨平台架构;依赖少,安装简单
  • Python式搜索空间(条件语句和循环均为Python语法)
  • 高效的优化算法;先进的超参采样方法,支持剪枝算法
  • 易用的并行优化;少量改动代码即可实现多服务器并行
  • 便捷的可视化;支持各种绘图函数展示优化历史记录

项目地址
官方文档
中文文档 :不推荐,因为很久没更新了(230331)

截至230331,Op

Read more

8.《Python数据分析》数据的联接、合并与重塑

1 层次化索引

层次化索引(hierarchical indexing)为pandas提供了一种以低维形式处理高维数据的方法

层次化索引的简单示例:

data = pd.Series(np.random.randn(9),index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
    									   [1, 2, 3, 1, 3, 1, 

Read more

TPE:基于贝叶斯的超参优化算法

中文标题:TPE:基于贝叶斯的超参优化算法改进

英文标题:Algorithms for hyper-parameter optimizati

Read more

核密度估计

核密度估计(kernel density estimation,简称KDE)是核平滑对概率密度估计的应用,即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)

核密度估计的实现:

  • 假设$(x_1,x_2,...,x_n)$是来自同一个单变量未知分布中的独立样本
  • 核密度估计可以根据这些样本推测出该分布的概率密度函数: $$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_{

Read more

贝叶斯优化

贝叶斯优化是一种通用的黑盒优化算法,不需要计算梯度便可快速解决最优化问题,贝叶斯优化适合处理目标函数计算成本高或求导困难的情况。贝叶斯优化最常用的场景是超参搜索(尤其是神经网络类算法,计算成本高,超参数还多)

1 贝叶斯优化与代理模型

贝叶斯优化(Bayesian Optimization,BO)

  • 目的是要找到一组最优的超参组合x,能使评价/目标函数f(x)达到全局最优

  • 由于评价/目标函数f(x)计算成

Read more

7.《Python数据分析》数据清洗和准备

在整个数据分析和建模的过程中,数据清洗和预处理将占据其中80%的时间

1 处理缺失数据

pandas沿用了R语言中的习惯,将缺失值表示为NA(not available)

  • Python内置的None也可以作为NA
  • 对于浮点型数据来说,也会用NaN(Not a Number)表示缺失

处理缺失的代码示例:

string_data = pd.Series(["aardvark", np.nan, None, "avocado"])
string_data.isna(

Read more

6.《Python数据分析》数据加载与存储

1 读写文本格式的数据

常见读取函数: | 函数名称 | 简单描述 | | ---------------- | ------------------------------------------------------------- | | read_csv | 从文件、URL、文件型对象中加载带分隔符的数据,默认分隔符为逗号 | | read_fwf |

Read more