GAIA:466个精心设计的问题和答案

GAIA 基准测试保留了 300 个问题用来构建 AI 模型的排名

  • GAIA 设计的问题对人类来说简直轻而易举,而对大多数 A 来说却很有挑战性
  • 即,人类回答准确率为 92%,而用上插件的 GPT-4 回答准确率仅为 15%
  • GAIA 设计的问题需要 AI 模型具备推理、多模态处理或工具使用熟练程度等基本能力

GAIA 的设计原则(原始论文):

  1. 概念上简单但多样化(对人类来说比较乏味,考验 AI 的快速适应力)
  2. 可解释性;让用户很容易理解模型的推理轨迹
  3. 对记忆的鲁棒性;计划并成功地完成一些步骤
  4. 易用性;问题的答案是简洁和明确的事实

GAIA 的问题示例:

  • 一级问题:最多只需要一个工具,但不超过 5 个步骤
  • 二级问题:步骤大约在 5 到 10 之间,需要结合不同的工具
  • 三级问题:任意长的动作序列 + 任意数量的工具(贴近一般世界)

不同等级问题的得分与耗时:

往年同期文章