GLUE 通用语言理解评估

GLUE（General Language Understanding Evaluation，通用语言理解评估）是一种常用的评估工具，用于评估 NLP 模型在一系列任务上的有效性。

GLUE 基准测试由纽约大学和谷歌的研究人员开发的。开发 GLUE 的动机是需要一个全面的 NLP 模型评估框架，该框架测试语言理解的不同方面并提供更完整的描述

官网为： https://gluebenchmark.com/

GLUE 共包含 3 个分类 9 个任务：

具体的 9 种任务说明：

1.CoLA(语言可接受性语料库)：CoLA 由来自23种语言学出版物的10657个句子组成，由其原作者对其可接受性(语法性)进行了专业注释。

2.SST-2(Stanford Sentiment Treebank)：一个广泛用于情感分析任务的数据集，其中需要模型将句子的情感分类为正面或负面。给出的标签是二进制的。

3.MRPC(Microsoft Research Paraphrase Corpus)：微软研究人员开发的一种文本蕴含任务，需要模型来确定两个句子在语义上是否等价。

4.STS-B(Semantic Textual Similarity Benchmark)：衡量两个句子相似度的任务。与上面的标签是二进制的数据集不同。标签是一个从0到5的数字，0表示相似度最低，5表示相似度最高。

5.QQP(Quora Question Pairs)：这个数据集由超过400,000个问题对组成，每个问题对都用二进制值注释，表明两个问题是否相互解释。

6.MNLI(多流派自然语言推理)：这个语料库是433k句子对的众包集合，带有文本蕴含信息注释。该语料库以SNLI语料库为蓝本，但不同之处在于它涵盖了一系列口语和书面文本类型，并支持独特的跨类型泛化评估。

7.QNLI(Question Natural Language Inference)：该数据集是从斯坦福问答数据集 v1.1(SQuAD)自动衍生的自然语言推理数据集。该任务需要模型来确定给定段落是否可以回答问题。

8.RTE(识别文本蕴含)：该数据集来自一系列文本蕴含挑战。来自 RTE1、RTE2、RTE3和 RTE5的数据被合并。这是一个文本蕴含任务，需要模型来确定一个前提是否蕴含一个假设。

9.WNLI(Winograd Schema Challenge)：用以理解一个含有代词的内容并判断出该代词指代的内容。

个人笔记