分类目录归档:AI 基准测试集

GLUE 通用语言理解评估

GLUE(General Language Understanding Evaluation,通用语言理解评估)是一种常用的评估工具,用于评估 NLP 模型在一系列任务上的有效性。

GLUE 基准测试由纽约大学和谷歌的研究人员开发的。开发 GLUE 的动机是需要一个全面的 NLP 模型评估框架,该框架测试语言理解的不同方面并提供更完整的描述

官网为: https://gluebenchmark.com/

GLUE 共包含 3 个分类 9 个任务:

  • 单句任务包括 CoLA、SST-2
  • 相似性任务包括 MRPC、STS-B、QQP
  • 语音理解任务包括 MNLI、QNLI、RTE、WNLI

Read more

SWE-BENCH:2294 个 GitHub 真实问题

随着 AI 模型的能力提升,人类需要一些更有趣的测试集来刁难他们~

GAIA:466个精心设计的问题和答案

SWE-BENCH:2294 个 GitHub 真实问题

项目地址

SWE-bench 是一个在现实软件工程(GitHub)环境中评估 LMs 的基准

  • 模型的任务是解决提交到流行 GitHub 项目的问题(通常是错误报告或功能请求)
  • 每个任务的解决方案都会生成一个 PR,描述要应用于现有代码库的更改
  • 最后,使用当前 GitHub 项目的测试框架评估修改后的代码

SWE-ben

Read more

GAIA:466个精心设计的问题和答案

GAIA 基准测试保留了 300 个问题用来构建 AI 模型的排名

  • GAIA 设计的问题对人类来说简直轻而易举,而对大多数 A 来说却很有挑战性
  • 即,人类回答准确率为 92%,而用上插件的 GPT-4 回答准确率仅为 15%
  • GAIA 设计的问题需要 AI 模型具备推理、多模态处理或工具使用熟练程度等基本能力

GAIA 的设计原则(原始论文):

  1. 概念上简单但多样化(对人类来说比较乏味,考验 AI 的快速适应力)
  2. 可解释性;让用户很容易理解模型的推理轨迹
  3. 对记忆的鲁棒性;计划并成功地完成一些步骤
  4. 易用性;问题的答案是简洁和明确的事实

GAIA 的问题示例:

  • 一级问题:最多只需要一

Read more