1 基本介绍
Optuna 是一个为机器学习设计的自动超参数优化软件框架
- 轻量级、多功能和跨平台架构;依赖少,安装简单
- Python式搜索空间(条件语句和循环均为Python语法)
- 高效的优化算法;先进的超参采样方法,支持剪枝算法
- 易用的并行优化;少量改动代码即可实现多服务器并行
- 便捷的可视化;支持各种绘图函数展示优化历史记录
项目地址
官方文档
中文文档 :不推荐,因为很久没更新了(230331)
截至230331,Op
核密度估计(kernel density estimation,简称KDE)是核平滑对概率密度估计的应用,即一种以核为权重估计随机变量概率密度函数的非参数方法。由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)
核密度估计的实现:
$$\hat{f}_h(x)=\frac{1}{n}\Sigma_{i=1}^nK_h(x-x_i)=\frac{1}{nh}\Sigma_
贝叶斯优化是一种通用的黑盒优化算法,不需要计算梯度便可快速解决最优化问题,贝叶斯优化适合处理目标函数计算成本高或求导困难的情况。贝叶斯优化最常用的场景是超参搜索(尤其是神经网络类算法,计算成本高,超参数还多)
贝叶斯优化(Bayesian Optimization,BO)
目的是要找到一组最优的超参组合x,能使评价/目标函数f(x)达到全局最优
由于评价/目标函数f(x)计算成
常见读取函数:
| 函数名称 | 简单描述 |
| ---------------- | ------------------------------------------------------------- |
| read_csv
| 从文件、URL、文件型对象中加载带分隔符的数据,默认分隔符为逗号 |
| read_fwf
|
pandas是后续数据清理和分析的重要工具
pandas是基于numpy构建的,但支持异构的数据(不同于numpy,pandas中不同列的类型可以是多样化的,比如日期、数值、字符串等)。pandas的功能定位可以对标Excel,但相比于Excel会更加地灵活强大
pandas包含两个主要数据结构:Series和DataFrame
Series是一种类似于一维数组的对象,包含了列表、字典或一维numpy数组的很多特性;每个Series都是由一个名称(name)、一组index和一组values构
NumPy(Numerical Python)是Python用于数值计算的基础包
ndarray
,提供快速向量计算和灵活的广播机制关于广播机制可参阅1.3 广播机制
ndarray
数组是一个通用的同构数据多维容器,即所有元素的类型应该是相
元组tuple
,小括号定义,固定长度,不可变的Python序列对象
在Python的函数中,参数传入以及结果返回都是以元组的形式实现的
列表list
,方括号定义,长度可变,内容可变的Python序列对象
常用的序列函数
enumerate()
示例:for i, value in enumerate(tuple_or_list)
sort()
:对序列或字符串进行排序zip()
:对多个序列进行成对地组合(最终长度取决于最短的输入序列)reversed()
:生成器,从后向前地迭代一个序列字典dict
(重要),大括号定义,以键值对