分类目录归档:DeepLearning
基本概念
模型融合(model merging):
- 将多个神经网络模型进行合并,得到一个融合模型
- 优势在于节省计算/时间成本、无需训练数据(隐私保护)
- 有时能取得类似多任务学习的效果,也可能具备更好的泛化性
思考:如何验证模型融合的合理性? (此处
循环神经网络(RNNs):具有隐状态、不同层参数共享的神经网络
常见的三种基础 RNNs :RNN、GRU、LSTM
RNN
隐变量模型:使用隐状态 $h_{t-1}$ 存储前 $t-1$ 步的序列信息 $$P(x_t|x_{t-1},...,x_1)\approx P(x_t|h_{t-1})$$ $$h_t=f(x_t,h_{t-1})$$ 循环神经网络(recurrent neural networks,RNNs) 是具有隐状态的神经网络
假设时刻 $t$ 的输入为 $X_t \in \mathbb{R}^{n\times d}$,对应的权重参数为 $W
卷积神经网络(CNN):引入了卷积操作的神经网络
普通卷积
严格来说,卷积层是个错误的叫法,因为它所表达的运算其实是互相关运算(cross-correlation)
二维互相关运算示例:
汇聚/池化层
池化(pool)层的优点:降低卷积层对位置的敏感性
常用池化层分两种:最大池化层和平均池化层,前者示例如下:
类似于卷积层,池化层也会有填充和步幅,使用大于 1 的步幅可以起到降维的作用
不同于卷积层,池化层在每个输入通道上是单独计算的,所以池化层的输出通道数等于输入通道数
膨胀卷积
膨胀(dilated)卷积,也称
GLUE(General Language Understanding Evaluation,通用语言理解评估)是一种常用的评估工具,用于评估 NLP 模型在一系列任务上的有效性。
GLUE 基准测试由纽约大学和谷歌的研究人员开发的。开发 GLUE 的动机是需要一个全面的 NLP 模型评估框架,该框架测试语言理解的不同方面并提供更完整的描述
官网为: https://gluebenchmark.com/
GLUE 共包含 3 个分类 9 个任务:
- 单句任务包括 CoLA、SST-2
- 相似性任务包括 MRPC、STS-B、QQP
- 语音理解任务包括 MNLI、QNLI、RTE、WNLI
随着 AI 模型的能力提升,人类需要一些更有趣的测试集来刁难他们~
GAIA:466个精心设计的问题和答案
SWE-BENCH:2294 个 GitHub 真实问题
SWE-bench 是一个在现实软件工程(GitHub)环境中评估 LMs 的基准
- 模型的任务是解决提交到流行 GitHub 项目的问题(通常是错误报告或功能请求)
- 每个任务的解决方案都会生成一个 PR,描述要应用于现有代码库的更改
- 最后,使用当前 GitHub 项目的测试框架评估修改后的代码
SWE-ben
1 word2vec概述
广义上指能将词语文本转化为向量的一类技术,也称词嵌入(word embedding)
狭义上指借助神经网络模型为基础构建词向量的过程,其中最经典的两类word2vec技术分别为skip-gram和CBOW
最终获取的词向量,可看作表示单词意义的向量,也可以看作是词的特征向量