GLUE 通用语言理解评估

GLUE(General Language Understanding Evaluation,通用语言理解评估)是一种常用的评估工具,用于评估 NLP 模型在一系列任务上的有效性。

GLUE 基准测试由纽约大学和谷歌的研究人员开发的。开发 GLUE 的动机是需要一个全面的 NLP 模型评估框架,该框架测试语言理解的不同方面并提供更完整的描述

官网为: https://gluebenchmark.com/

GLUE 共包含 3 个分类 9 个任务:

  • 单句任务包括 CoLA、SST-2
  • 相似性任务包括 MRPC、STS-B、QQP
  • 语音理解任务包括 MNLI、QNLI、RTE、WNLI

具体的 9 种任务说明:

1.CoLA(语言可接受性语料库):CoLA 由来自23种语言学出版物的10657个句子组成,由其原作者对其可接受性(语法性)进行了专业注释。

2.SST-2(Stanford Sentiment Treebank):一个广泛用于情感分析任务的数据集,其中需要模型将句子的情感分类为正面或负面。给出的标签是二进制的。

3.MRPC(Microsoft Research Paraphrase Corpus):微软研究人员开发的一种文本蕴含任务,需要模型来确定两个句子在语义上是否等价。

4.STS-B(Semantic Textual Similarity Benchmark):衡量两个句子相似度的任务。与上面的标签是二进制的数据集不同。标签是一个从0到5的数字,0表示相似度最低,5表示相似度最高。

5.QQP(Quora Question Pairs):这个数据集由超过400,000个问题对组成,每个问题对都用二进制值注释,表明两个问题是否相互解释。

6.MNLI(多流派自然语言推理):这个语料库是433k句子对的众包集合,带有文本蕴含信息注释。该语料库以SNLI语料库为蓝本,但不同之处在于它涵盖了一系列口语和书面文本类型,并支持独特的跨类型泛化评估。

7.QNLI(Question Natural Language Inference):该数据集是从斯坦福问答数据集 v1.1(SQuAD)自动衍生的自然语言推理数据集。该任务需要模型来确定给定段落是否可以回答问题。

8.RTE(识别文本蕴含):该数据集来自一系列文本蕴含挑战。来自 RTE1、RTE2、RTE3和 RTE5的数据被合并。这是一个文本蕴含任务,需要模型来确定一个前提是否蕴含一个假设。

9.WNLI(Winograd Schema Challenge):用以理解一个含有代词的内容并判断出该代词指代的内容。

参考:详解自然语言处理(NLP)和GLUE基准

往年同期文章