分类目录归档:AI 基准测试集 | Digital Garden | 王半仙

分类目录归档：AI 基准测试集

GLUE 通用语言理解评估

1130 views

GLUE（General Language Understanding Evaluation，通用语言理解评估）是一种常用的评估工具，用于评估 NLP 模型在一系列任务上的有效性。

GLUE 基准测试由纽约大学和谷歌的研究人员开发的。开发 GLUE 的动机是需要一个全面的 NLP 模型评估框架，该框架测试语言理解的不同方面并提供更完整的描述

官网为： https://gluebenchmark.com/

GLUE 共包含 3 个分类 9 个任务：

单句任务包括 CoLA、SST-2
相似性任务包括 MRPC、STS-B、QQP
语音理解任务包括 MNLI、QNLI、RTE、WNLI

SWE-BENCH：2294 个 GitHub 真实问题

1875 views

GAIA：466个精心设计的问题和答案
SWE-BENCH：2294 个 GitHub 真实问题

随着 AI 模型的能力提升，人类需要一些更有趣的测试集来刁难他们~

GAIA：466个精心设计的问题和答案

SWE-BENCH：2294 个 GitHub 真实问题

SWE-bench 是一个在现实软件工程（GitHub）环境中评估 LMs 的基准

模型的任务是解决提交到流行 GitHub 项目的问题（通常是错误报告或功能请求）
每个任务的解决方案都会生成一个 PR，描述要应用于现有代码库的更改
最后，使用当前 GitHub 项目的测试框架评估修改后的代码

SWE-ben

GAIA：466个精心设计的问题和答案

1046 views

GAIA 基准测试保留了 300 个问题用来构建 AI 模型的排名

GAIA 设计的问题对人类来说简直轻而易举，而对大多数 A 来说却很有挑战性
即，人类回答准确率为 92%，而用上插件的 GPT-4 回答准确率仅为 15%
GAIA 设计的问题需要 AI 模型具备推理、多模态处理或工具使用熟练程度等基本能力

GAIA 的设计原则（原始论文）：

概念上简单但多样化（对人类来说比较乏味，考验 AI 的快速适应力）
可解释性；让用户很容易理解模型的推理轨迹
对记忆的鲁棒性；计划并成功地完成一些步骤
易用性；问题的答案是简洁和明确的事实

GAIA 的问题示例：

一级问题：最多只需要一