随着 AI 模型的能力提升,人类需要一些更有趣的测试集来刁难他们~
GAIA:466个精心设计的问题和答案
SWE-BENCH:2294 个 GitHub 真实问题
SWE-bench 是一个在现实软件工程(GitHub)环境中评估 LMs 的基准
- 模型的任务是解决提交到流行 GitHub 项目的问题(通常是错误报告或功能请求)
- 每个任务的解决方案都会生成一个 PR,描述要应用于现有代码库的更改
- 最后,使用当前 GitHub 项目的测试框架评估修改后的代码
SWE-ben
分类目录归档:学习
随着 AI 模型的能力提升,人类需要一些更有趣的测试集来刁难他们~
SWE-bench 是一个在现实软件工程(GitHub)环境中评估 LMs 的基准
SWE-ben
“向量数据”:向量数据是由多个数值组成的序列,可以表示数据的大小和方向
向量数据库是一种专门用于存储和查询向量数据的数据库系统,
局
# Credits: https://linuxhandbook.com/clear-pip-cache/
pip cache info # 查看缓存信息
pip cache list # 查找各个包的缓存
pip cache dir # 查找缓存所在的目录
pip cache remove [package_name] # 从缓存中删除特定包
pip cache remove *
Streamlit 是一个 Python 库,能够用于使用 Python 创建可交互的、数据驱动的网页应用
pip install streamlit # 安装
streamlit hello # 测试安装是否成功
启动命令:streamlit run your_script.py [-- script args]
快速上手:Streamlit 快速上手
常用技巧:
LDA 算法是一种监督学习的降维技术
LDA算法降维流程如下:
输入:数据集 $D = { (x_1,y_1),(x_2,y_2), ... ,(x_m,y_m) }$,其中样本 $x_i$ 是n维向量,$y_i \in {C_1, C_2, ..., C_k}$
最常用的10个超参数(原生API,兼容Scikit-learn的API,常见取值范围):
num_boost_round
:训练期间所需要的基学习器数量,默认100;在应对较大数据集时,一般控制在5000~10000左右(影响训练时间的重要因素);一个常用技巧是先设定一个较高的数值,然后结合early-stopping来获得一个较优的模DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度的、对噪声鲁棒的空间聚类方法)是一种基于密度的经典聚类算法
启发式算法(Heuristic Algorithms)通常是以问题为导向的(Problem Specific),没有一个通用的框架,每个不同的问题通常设计一个不同的启发式算法,通常被用来解组合优化问题
普通启发式算法一般是一种贪婪算法,需要根据特定问题进行特定设计
贪婪算法,也叫贪心算法
其基本思想是:每一步都采取当前状态下最好的选择,而不考虑全局最优解是否已经达到。在每一步中,贪心算法都会做出一个贪心决策,即选择当前状态下最优的解决方案,并且不考虑这个决策可能会导致的未来后果
以经典的装包问